自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

-

  • 博客(91)
  • 收藏
  • 关注

原创 np.array_fancy_indexing花式索引

在Python中,使用NumPy库进行花式索引(fancy indexing)是一种非常强大的功能,它允许你通过使用数组索引数组。这意味着你可以使用另一个数组来指定你想要索引的主数组中的元素。步骤 1: 导入NumPy库。步骤 2: 创建一个数组。步骤 3: 使用花式索引。

2024-09-26 23:06:37 28

原创 SQL_create_view

在 Spark 中,你可以使用 cache() 或 persist() 方法来持久化一个 DataFrame,这将把 DataFrame 的内容缓存到内存中(如果内存足够),或者在内存不足时写入到磁盘。视图可以是临时的,也可以是全局临时的,也可以是持久化的。CREATE VIEW是一个单独的命令,用于创建视图,而SELECT语句是用于从视图中查询数据的。但是,你可以在创建视图之后立即使用SELECT语句来查询视图,这可以通过在同一个SQL脚本或命令行会话中连续执行两个语句来实现。

2024-09-26 22:46:22 256

原创 np.array多维数组

对于上面创建的数组,形状为(2, 2, 2),分别代表第一维度有 2 个元素(两个二维数组),第二维度有 2 个元素(每个二维数组中有两个一维数组),第三维度有 2 个元素(每个一维数组中有两个值)。例如,arr[:, :, 0]将获取所有二维数组中所有一维数组的第一个元素,得到结果array([[1, 3], [5, 7]])。• 通过三个索引来访问特定位置的元素。例如,arr[0, 1, 1]将访问第一个二维数组中的第二个一维数组的第二个元素,即值 4。• 可以使用嵌套的循环来遍历三维数组的所有元素。

2024-09-26 21:40:46 34

原创 Python_list去重复值remove_duplicates

在 Python 中可以使用多种方法去除列表中的重复元素。

2024-09-26 21:06:03 39

原创 两分类器分类相反

这意味着对于任何给定的 x, 两个分类器的预测结果必定是互补的。因此,一个分类器的TP将是另一个分类器的FN,一个分类器的FP将是另一个分类器的TN。例如,如果一个实例 x 被 C1(x) 正确地预测为正例(TP),那么 C2(x) 将错误地预测它为负例(FN)。反之,如果 C1(x) 错误地预测 x 为负例(FN),那么 C2(x) 将正确地预测它为正例(TP)。两分类器分类相反时,它们TP, FP, TN, FN的关系?

2024-09-26 18:27:19 23

原创 Desmos图形计算器分段函数

在Desmos中添加限制条件,比如指定变量 x 属于某个特定范围,可以通过在表达式中加入大括号 {} 来实现。这表示 y = x^2 仅在 x 的值从 0 到 10 (包括0和10)的范围内有效。如果你想要设置开区间,可以使用小括号 () 代替方括号 [],例如:这表示 y = x^2 仅在 x 的值严格大于 0 且小于 10 的范围内有效。此外,Desmos还支持更复杂的条件表达式,你可以使用逻辑运算符如“且”(&&)和“或”(||)来组合多个条件。

2024-09-26 18:10:33 79

原创 Python_20个进阶用法

结果:[(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)]结果:{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}结果:[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]结果:[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]结果:[0, 1, 2, 1, 2, 3, 2, 3, 4]

2024-09-26 14:43:06 97

原创 Logistic Regression notes

Book “An Introduction To Statistical Learning Textbook” 这是一本非常著名的教材《统计学习导论》,为什么中英文版本有出入?我们可以通过改变 Beta_1 的值来调整 sigmoid function的增长率。more than two classes 分成好几个类别。Beta_0 的值能够将此函数向右和向左移动。Log odds 又叫作 logit。predictors. 受多因素影响。

2024-09-26 14:10:23 700

原创 Greedy_approach贪心算法

给定不同面额的硬币和需要找零的总金额,贪心算法会尽可能多地使用面值最大的硬币,直到找零完成。例如,给定25分、10分、5分和1分的硬币,需要找零41分,算法会优先使用25分硬币。贪心算法会按照活动的结束时间进行排序,然后选择结束时间最早的活动,以此类推。贪心算法会根据货物的重量进行排序,然后尽可能多地装载最重的货物,直到船只无法再承载更多的货物。通过构建哈夫曼树,每次选择两个出现频率最低的节点合并,直到构建出完整的树,从而实现有效的数据压缩。:类似于经典的背包问题,但每种物品可以分割成更小的份。

2024-09-25 19:03:07 225

原创 Difference among data wrangling, cleaning, and validation

【代码】Difference among data wrangling, cleaning, and validation。

2024-09-25 18:40:33 391

原创 SQL_having_pandas_filter

HAVING子句在SQL中用于对分组后的结果进行过滤,它通常与GROUP BY子句一起使用。HAVING子句允许你指定条件来过滤聚合函数的结果,而WHERE子句则用于在分组之前过滤原始数据。

2024-09-25 17:02:37 675

原创 Groupby_SQL和pandas等效例子

在SQL中使用PARTITION BY与在Pandas中使用groupby().agg()有一定的相似性,因为它们都是用于分组数据并对每组应用某种聚合函数。

2024-09-25 16:41:06 750

原创 SQL_over_partition_by_order_by

• window_function: 窗口函数,如SUM(), AVG(), COUNT(), MIN(), MAX(), ROW_NUMBER(), RANK(), DENSE_RANK(), LEAD(), LAG()等。• RANK() OVER (PARTITION BY salesperson_id, YEAR(date) ORDER BY amount DESC): 计算每个销售人员在每个季度的销售额排名。我们想要计算每个销售人员的总销售额,并且想要知道每个销售人员在每个季度的销售额排名。

2024-09-25 16:23:31 271

原创 Leecode_SQ50_1934. Confirmation Rate

Leecode没做出来。

2024-09-25 15:56:37 452

原创 Leecode_SQL50_570. Managers with at Least 5 Direct Reports

Leecode。

2024-09-25 15:33:05 247

原创 Leecode_SQL50_1280. Students and Examinations

注意一定要选择 a.subject_name!因为只有这个表是全的。若选择错了,有人的 subject_name 会是 null.用 CROSS JOIN 获取所有学生和科目的组合,不用有相同的列来 JOIN ON.

2024-09-25 15:21:46 820

原创 Leecode_SQL50_1661. Average Time of Process per Machine

【代码】Leecode_SQL50_1661. Average Time of Process per Machine。

2024-09-25 14:33:23 563

原创 Pandas重命名列的各种方法

在Pandas中,可以使用多种方法来重命名DataFrame的列。

2024-09-25 13:15:51 122

原创 Python_plt_marker=‘o’会创建散点图吗?

在Python的matplotlib库中,使用’o’作为标记样式(marker style)确实可以创建类似散点图的效果,但仅仅设置标记样式并不足以定义一个散点图。使用scatter()函数的好处是它提供了更多的配置选项,比如可以单独设置每个点的颜色、大小等,而且它更直观地表达了你的意图,即创建一个散点图。虽然使用plot()函数并设置标记样式为’o’可以产生类似散点图的效果,但使用scatter()函数是创建散点图的更正式和推荐的方式。

2024-09-25 12:32:47 121

原创 Pandas_ get_dummies独热编码

pd.get_dummies 是 Pandas 库中的一个函数,用于将分类变量转换为“哑变量”或“独热编码”(One-Hot Encoding),这是处理分类数据的一种常用技术。• prefix: 为生成的哑变量列添加前缀。• columns: 指定需要转换的列名。如果不指定,则转换所有对象类型的列。• dummy_na: 是否为缺失值创建一个哑变量,默认为 False。• sparse: 返回稀疏矩阵格式的数据,默认为 False。• prefix_sep: 前缀和值之间的分隔符,默认为空格。

2024-09-25 12:21:38 213

原创 Pandas想知道列的datatype

如果你只对DataFrame中某一列的数据类型感兴趣,可以直接访问该列然后使用 dtype 属性。你想要更详细的信息,info() 或 describe() 方法会提供更多的上下文。这个方法会显示DataFrame的概要信息,包括每列的数据类型、非空值的数量等。直接查看DataFrame中所有列的数据类型,然后找到你感兴趣的那一列。这个方法可以统计DataFrame中每种数据类型的列的数量。如果你想根据数据类型筛选出某些列,可以使用这个方法。使用 dtype 属性通常是最直接和快速的方法。

2024-09-25 11:56:26 99

原创 用矩阵和统计报告估计polynomial线性回归的系数python

在这个例子中,X_poly 是一个设计矩阵,它包含了 X 的平方项、X 的一次项和常数项。X_poly.T 是 X_poly 的转置。np.linalg.inv(X_poly.T.dot(X_poly)) 计算了 (X^T X)^(-1),然后我们使用 .dot(X_poly.T).dot(Y) 来计算系数向量。这种方法更加简洁,而且可以轻松地处理更复杂的多项式回归模型。在Python中,我们可以使用NumPy库来构建设计矩阵,并使用线性代数的方法来估计多项式线性回归的系数。

2024-09-24 18:33:20 360

原创 期望Expectation的全概率公式

全概率公式是概率论中的一个公式,用于计算一个事件的期望值(Expectation)。期望值是随机变量的平均值,它反映了随机变量的中心趋势。这里 E(X | Y = y) 是给定 Y = y 时 X 的条件期望值, f_Y(y) 是 Y 的概率密度函数。其中, x_i 是随机变量 X 的可能取值, P(X = x_i) 是 X 取这些值的概率。全概率公式在贝叶斯定理中也有应用,它允许我们根据已知的边缘概率和条件概率来计算未知的条件概率。

2024-09-24 18:25:30 318

原创 Python_yield

跟普通的 return 不同的是,yield 会返回一个值,并且保存当前函数的状态,以便下次迭代时从此状态继续执行。利用 yield,我们可以在不占用大量内存的情况下获取数列中的任意多个元素。这个生成器函数会依次返回 1、2 和 3,并且在每次 yield 之后都会暂停,直到被再次调用。yield是Python中的关键字,用于在函数中返回生成器。当函数被调用时,yield会返回一个值,并保存当前函数状态。下次迭代时,函数会从保存的状态继续执行,而非从头开始。此函数会依次返回0到n-1的值。

2024-09-24 11:01:25 435

原创 SQL_UNION

在 SQL 中使用 UNION 操作符时,被联合的两个或多个 SELECT 语句的列数必须相同,并且相应的列数据类型也需要兼容。请注意,在使用 UNION 时,每个 SELECT 语句中的列数必须相同,并且相应的列数据类型必须兼容。在这个例子中,table2 的查询结果只有一列,所以在 SELECT 语句中使用了 NULL AS column2 来提供第二列的值,以便与 table1 的两列结果匹配。这将返回部门 ID 为 5 的所有员工和经理的名字,以及他们的类型。

2024-09-23 21:27:17 402

原创 Inference_vs_Prediction推断和预测的区别

(2) 预测:我们希望使用现有数据集构建一个模型,以预测新观测值的响应变量的值。(1) 推断:我们想了解现有数据集中预测变量和响应变量之间关系的性质。

2024-09-23 19:21:06 173

原创 Pandas_iloc_loc_哪个是inclusive哪个是exclusive

iloc 和 loc 包括不包括结尾写的那个行(列)?是前5行,index=0 到 index=4 的行,还是前两列,index=0 到 index=1。居然是前6行,是 index=0。的行,包括 index=5 那行。index=5 那行。

2024-09-23 19:00:54 254

原创 Pandas_groupby_aggregation

• aggregation_functions:一个或多个聚合函数,可以是Pandas内置的函数,如sum、mean、count等,也可以是自定义的函数。在Pandas中,groupby方法经常与agg方法结合使用,以对分组后的数据应用聚合函数。这将计算每个部门的平均工资,和直接使用内置的mean函数效果相同。这将输出每个部门的工资的平均值、总和、计数和最大值。• df:你的DataFrame对象。多个列,多个聚合函数,并重命名。使用多个列和多个聚合函数。使用lambda函数。

2024-09-23 17:47:40 515

原创 SQL_HAVING小例子

简而言之,这个查询的逻辑是:对于graduates表中的每个income值,计算它的出现次数,然后只保留那些出现次数至少和其他所有income值一样多的income值。如果没有众数(即所有income值出现次数都不相同),这个查询可能不会返回任何结果,因为它要求至少等于所有其他值的出现次数。) as cnt from graduates:这部分是查询的基础,它从graduates表中选择income字段,并计算每个income值出现的次数(使用count(众数是指在一组数据中出现次数最多的数值。

2024-09-23 16:40:12 386

原创 Logistic_Regression_MLE

Asymptotic Normality 渐近正态 of Maximum Likelihood Estimators。Given 大数定理 和 中心极限定理,MLE is “good”.

2024-09-23 16:10:58 338

原创 Centrality

例如,在引文网络中,一个论文如果被许多其他重要论文引用,那么它的 eigenvector centrality 会很高,表明它在学术领域中具有较高的影响力。交通网络中的交通枢纽:在交通网络中,如城市地铁系统或公路网络,某些站点或交叉路口由于位于多条最短路径的交汇点,因此具有较高的Betweenness centrality。合作网络:在科学家或研究者的合作网络中,degree centrality 高的个体可能意味着他们参与了更多的合作研究,因此可能在该领域内具有较高的学术地位。

2024-09-22 16:22:11 712

原创 Useful_resources

🌟My own resources listApache Spark tutorial:https://docs.google.com/spreadsheets/d/1snoFhFndESVNR4i2k7zIWvJliwRthy22-IfcsNjDouc/htmlview?#All cheatsheets:https://docs.google.com/spreadsheets/d/1snoFhFndESVNR4i2k7zIWvJliwRthy22-IfcsNjDouc/htmlview?#

2024-09-22 14:50:00 85

原创 Python_str(x)_x.str.something区别

对于NumPy数组,.tostring() 方法(现在推荐使用 .tobytes(),因为 .tostring() 在未来的版本中可能会被弃用)会将数组中的数据以字节的形式返回,这通常用于需要将数组数据发送到文件、网络或其他需要字节数据的地方。b’\x01\x00\x00\x00\x02\x00\x00\x00\x03\x00\x00\x00\x04\x00\x00\x00’ # 字节字符串表示,具体输出可能因系统字节序而异。这是一个Python内置函数,用于将对象x转换为字符串类型。

2024-09-22 11:08:20 250

原创 np.random.seed设完又想用随机seed怎么办

在实际应用中,通常最好的做法是仔细管理你的随机数种子和生成器状态,确保在需要可预测结果时设置种子,在需要不可预测结果时避免重新设置种子或简单地使用不同的种子。这是一个极端的方法,但如果你正在交互式地工作,或者你的脚本运行时间不长,你可以考虑重启Python解释器来清除所有状态,包括NumPy的随机数生成器状态。另一种方法是,如果你只是想要在某些特定情况下获得“随机”的结果,而不关心这些结果是否真正来自一个未设置种子的生成器,你可以简单地通过不保存或使用任何先前的随机数状态来模拟这种行为。

2024-09-21 18:46:03 148

原创 Sqlite_Datetime列选择三月的行

【代码】Sqlite_Datetime列选择一月的行。

2024-09-20 22:39:44 471

原创 Google_Colab因RAM不足而崩溃

当Google Colab会话因RAM使用率过高而崩溃时,这通常是由于以下几个原因造成的:

2024-09-20 12:45:28 284

原创 SparkSQL和Spark常用语句

df1.join(df2, Seq(“id”)).show() // 适用于相同列名的简单连接。行动操作(例如:collect, count, reduce)初始化 SparkConf 和 SparkContext。Spark 常用语句(Spark Core)df.show(5) // 展示前5条记录。Spark SQL 常用语句。打印模式(Schema)过滤(Filter)

2024-09-19 15:21:32 638

原创 向空的np.array追加list的每列

如果你想逐列追加数据到一个空的NumPy数组中,你可以使用np.append函数或者np.hstack(水平堆叠)函数。但是要注意,由于NumPy数组的大小在内存中是固定的,逐元素或逐列追加在大数据集上可能效率不高,因为每次追加都会创建数组的一个新副本。在实际情况中,推荐尽可能使用第二种方法(一次性构建数组),因为它避免了多次复制数据,从而提高了效率。在Python中,如果你想将每个列(col)追加到一个空的NumPy数组(np.array)中,你可以使用多种方法。方法2:一次性构建数组。

2024-09-19 15:16:44 186

原创 Pandas语句

df[‘column’].str.replace(‘pattern’, ‘replacement’):替换列中字符串的指定模式。df[‘column’].str.contains(‘pattern’):检查列中的字符串是否包含指定模式。df.to_excel(‘filename.xlsx’):将数据保存为 Excel 文件。df.to_json(‘filename.json’):将数据保存为 JSON 文件。df.to_csv(‘filename.csv’):将数据保存为 CSV 文件。

2024-09-19 15:08:59 457

原创 Spark_natural_join

在 Apache Spark 中,和INNER JOIN是两种不同的连接操作,它们在合并数据集时有不同的行为和用途。

2024-09-15 20:18:52 551

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除