Module 2 Data Wrangling
处理缺失值
使用Python去除缺失值
pandas包中的dataframes.dropna(),当inplace
参数为True
时,直接在原数据框内操作
数据格式化
数据标准化
数据分组
数据转换(Categorical→Numeric)
Why One-Hot Encode Data in Machine Learning?中提到,将分类型数据转为数值型数据的两种方法:
1. Integer-Encoding,针对有序分类变量
2. One-Hot Encoding,针对无序分类变量
可使用pandas.get_dummies()进行转换。
Module 3 Exploratory Data Analysis(EDA)
统计描述
- df.describe()
- value_counts()
- Box Plots
seaborn.boxplot
- Scatter Plot
matplotlib.pyplot.scatter()
Groupby in Python
- df.groupby()
- pivot table(透视表)
df.pivot_table(),转化后便于阅读和查看,但不便于进行数据处理
- Heat Map
方差分析(ANOVA)
相关分析(correlation)
Correlation doesn’t imply causation!
统计相关性
皮尔森相关分析
scipy.stats.pearsonr()
两者相关性很强。
Module 4 Model Development
线性回归
一元线性回归 Simple Linear Regression(SLR)
举例: y^=