五、数据的清洗(处理)
数据分析四大步骤:
1 数据爬取:获取数据,解决从0到1的问题
2 数据清洗:跟分析主题相关指标进行梳理,拆分,合并(预处理)
3 数据分析,可视化:把(可分析的,高质量)数据进行汇总,可视化
4 数据报告:把冰冷的,海量的数据转换为易于查看的,会说话的图文呈
pandas库的使用
用途:针对二维数据表进行数据的处理,数据项的拆分,过滤,合并(统计,可视化)
常见方法:
1 初始化:DataFrame(json,columns,index)
2 切片:loc按行列名称切;iloc按行列序号切
3 拼装:concat 按列明匹配合并
concatenate简单的行列合并
merge:按列明进行关联合并(重点)
4 导入csv文件:read_csv(文件名,sep=分隔符)
5 常见数据窥探方法:shape,info,columns,head
6 value_counts :返回数据集中列的次数
7 数据处理函数:apply(lambda表达式)
8 求和:sum
数据挖掘笔记
最新推荐文章于 2024-07-15 10:11:25 发布