数据分析及预处理(一)


前言

经过了好几天的摸鱼,面对老师丢给的任务迟迟也是没有进展。但是摸鱼不能白摸,读了好多博主的文章,也是总结出来一些东西,慢慢罗列起来。


一、数据分析和预处理要做什么

读取(txt、csv、xls等文件)
数据分析【质量分析(缺失值、异常值)、特征分析(分布、对比、统计量、周期性、相关性)】
数据预处理【数据清洗(缺失值、异常值)、数据集成(实体识别、属性冗余)】
数据集划分(训练集、测试集)

二、实际操作

1.读取数据

首先通常拿到一份数据(文本、图片或者其他)我通常想到的就是怎么将他读取到我的开发环境中,这也是获得进展的第一步。python在这方面做的非常好。通常只要一个函数设置几个参数就可以读入。所使用的核心库是Pandas,这个库最好的帮手就是pandas的使用手册。代码如下(示例):
filename = "train.csv"
df = pd.read_csv(filename,encoding="utf-8",index_col="date")
print(df.head())

2.数据分析

分析之前首先要了解数据,最好是在你的开发环境IDE中了解。先来看一下数据的大小和所有的特征标签(每一列的名字),并计算df的常用统计量和缺失值数量。 代码如下(示例):
print(df.shape)#查看df大小
print(df.columns)#查看df特征
print(round(df.describe()))#计算df的常用统计量
print(df.isna().sum())#查看df的缺失值
可以看下结果,特征结果有点长,就忽略掉了

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值