Data Analysis with Python

本文介绍了使用Python进行数据处理的技巧,包括处理缺失值、数据格式化、数据标准化和分组,以及从分类型数据到数值型数据的转换。接着深入探讨了探索性数据分析,如统计描述、方差分析、相关分析和皮尔森相关系数。进一步讲解了线性回归模型的建立,包括一元和多元线性回归,并涉及模型评估和可视化。最后,讨论了模型评估中的过拟合、欠拟合及岭回归等概念,并介绍了网格搜索用于超参数调优。
摘要由CSDN通过智能技术生成

Module 2 Data Wrangling

处理缺失值

这里写图片描述
使用Python去除缺失值
pandas包中的dataframes.dropna(),当inplace参数为True时,直接在原数据框内操作
这里写图片描述

数据格式化

这里写图片描述

数据标准化

这里写图片描述

数据分组

这里写图片描述

数据转换(Categorical→Numeric)

这里写图片描述
Why One-Hot Encode Data in Machine Learning?中提到,将分类型数据转为数值型数据的两种方法:
1. Integer-Encoding,针对有序分类变量
2. One-Hot Encoding,针对无序分类变量

可使用pandas.get_dummies()进行转换。
这里写图片描述


Module 3 Exploratory Data Analysis(EDA)

统计描述

Groupby in Python

方差分析(ANOVA)

scipy.stats.f_oneway()
这里写图片描述

相关分析(correlation)

Correlation doesn’t imply causation!

这里写图片描述

统计相关性

皮尔森相关分析

这里写图片描述
scipy.stats.pearsonr()
这里写图片描述
两者相关性很强。


Module 4 Model Development

线性回归

一元线性回归 Simple Linear Regression(SLR)

举例: y^=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值