阳光下的暖冬LEO-CSDN博客

原创 CDA打卡活动-统计学极简入门2

区间估计经常用于质量控制领域来检测生产过程是否正常运行或者控制之中，也可以用来监控互联网领域各类数据指标是否在正常区间。用于小样本情况下对总体均值的推断，当样本容量较小或总体方差未知时，使用t分布进行推断更准确。检验观察值与理论值之间的拟合优度，常用于拟合优度检验、独立性检验中国。t分布的形态类似于正态分布，但尾部较宽，t分布的自由度决定了其形状。用于比较两个样本方差的差异，常用于方差分析和回归分析中。第2次打卡内容包括，课时3：数据分布、课时4：区间估计。dfn=5 # 分子自由度。

2024-04-09 15:51:09 239

原创 CDA打卡活动-Python数据分析极简入门3

df.apply(lamda x: x.max()-x.min(), axis=0) # 默认参数为axis=0，按列计算，每列输出一个值。df.apply(lambda x: x.max()-x.min(), axis=1) # axis=1，按行计算，即每行输出一个值。pd.merge(df1, df2, how='left', on="A") # 左连接，保留df1的全部行，A列值相同。df1[df1['A'].isin(df2['A])] #返回在df1中列'A'的值在df2中也存在的行。

2024-04-08 19:30:27 1337

原创 CDA打卡活动-SQL数据分析极简入门-课时3

row_number()函数为每一行分配唯一的行号，而rank()函数和dense_rank()函数在处理相同值的下一行行号时会有区别：rank()函数跳过下一个排名，而dense_rank()函数会紧随其后。选择使用哪个函数取决于具体的需求和对重复值的处理方式。可以结合聚集函数sum()、avg()、max()、min()、count()等使用。lead()函数的作用是返回某列的值向上平移n行的结果，参数与lag()函数相同。例如，如果两行排名为3，则下一个排名为4，rank()函数的下一个排名为5。

2024-04-08 11:47:38 1518

原创 CDA打卡活动-Python数据分析极简入门2-4.2

2. 在.iloc[]里，前面写上要筛选的行索引，在逗号,后面写上要筛选的列索引，其中冒号:代表所有，0:3代表从索引0到2。dataframe：二维的表格型数据结构，可以理解为是series的容器，它既有行索引columns，也有列索引index。3. 在.loc[]里面行索引位置写:选取所有行，列索引位置写上要筛选的列索引组成的列表['a','c','d']2. 在.iloc[]里面行索引位置写:选取所有行，列索引位置写上要筛选的列顺序组成的列表[0,2,3]1. 直接在[]里面写上筛选的列名。

2024-04-02 21:26:13 259 1

原创 CDA打卡活动-Python数据分析极简入门1-4.2

可以容纳多个元素的对象叫做容器，容器用来存放不同的元素，常见的有：list（列表）、tuple（元组）、dict（字典）、set（集合）使用圆括号()可以创建一个元组tuple变量。使用中括号[]可以创建一个列表list变量。使用花括号{}可以创建一个集合set变量。第1节 Python基础知识。

2024-04-02 21:22:59 527 1

原创 CDA打卡活动-统计学极简入门1-4.2

在Excel中，=quartile(A1:A8,1)，括号里的参数，0代表最小值，1代表25%分位数，2代表50%分位数，3代表75%分位数，4代表最大值。sts.skew(data, bias=False) #bias=False代表计算的是总体偏度，bias=True代表计算的是样本偏度。sts.skew(data, bias=False) #bias=False代表计算的是总体偏度，bias=True代表计算的是样本偏度。（2）峰度：K，描述分布在集中趋势高峰的状态，通常与标准正态分布相比较。

2024-04-02 21:18:57 312 1

原创 CDA打卡活动-Python特征工程入门3-4.2

综合利用业务的统计特征和组合特征可以帮助我们更好地挖掘数据的潜在信息，提高模型的性能和效果。在特征工程的过程中，需要根据具体的问题和数据特点来选择合适的统计特征和组合特征，从而提高模型的预测能力。常见的组合特征包括特征相加、相乘、相除、取平均值等操作。通过合理地组合特征，可以提高模型的泛化能力和预测准确度。组合特征是指将原始特征进行组合，生成新的特征。通过组合不同的特征，可以发现特征之间的关联性，提高模型的表现。规则、数据清洗、用户维度统计特征、商品维度统计特征、时间型。简单特征组合、模型特征组合。

2024-04-02 18:06:01 358 1

原创 CDA打卡活动-Python特征工程入门2-4.2

首先创建一个BinaryEncoder实例，并指定了需要编码的列（比如索引为0的列），然后使用fit_transform方法对数据进行编码，输出一个新的DataFrame或Numpy数组，包含原始分类数据的二进制编码表示。使用sklearn.preprocessing.StandardScaler类可以实现，并保存训练集中的参数（如均值、方差）L1正则化：矩阵X中的每个元素都除以该行的绝对值之和，使得每一行都被重新缩放，每一行的元素之和为1。2. 生成变量的统计分布状况（histogram）

2024-04-02 17:23:09 266 1

原创 CDA打卡活动-Python特征工程入门1-4.1

心得：在这一节里重新认识了“特征工程”的概念，明白了它的重要性，了解了很多自定义函数用于处理时间和空间数据。数据和特征决定了机器学习的上限，而模型和算法知识逼近这个上限。特征工程是对原始数据进行一系列工程处理，将其提炼为特征，作为输入，供算法和模型使用。4. 类别特征：序号编码、独热编码（one-hot）、二进制编码、标签编码。6. 特征变换：对数变换、指数变换、box-cox变换。5. 统计及组合特征：统计特征、业务特征、组合特征。1. 时间特征：离散时间、连续时间。课时1. 时间特征与空间特征。

2024-04-01 17:32:22 110

原创 CDA打卡活动第2期-SQL方向-3.31课时2

as列别名不能在where和having（对group by子句中分组后的数据进行过滤）中使用，可以在order by子句中使用。字符串转大写函数：select upper('cda');字符串转大写函数：select lower('CDA');在这个课时中，详细了解各种函数，有些是之前没学习过的，稍微记录一下。右补足函数：Ipad用go将mysql右边补足到11位的长度。重复字符串函数：repeat返回重复n次后的str字符串。空格字符串函数：space返回长度为n的字符串。

2024-03-31 18:26:49 151

原创 CDA打卡活动第2期-SQL方向-3.31课时1

DDL：data definition language，数据定义语言，create、alter、drop、truncate。DML：data manipulation language，数据操作语言，insert、delete、update。TCL：transaction control language，事务控制语言，commit、rollback。DCL：data control language，数据控制语言，grant、revoke。（2）流程控制——你要操作这个东西的基本流程是什么。

2024-03-31 17:29:25 244

qq_44314111的博客