机器学习之pandas库(四)用法总结

总结

pandas库是基于numpy,更适合机器学习中对数据进行处理的库,numpy偏向于科学计算,而pandas偏向于对数据的增删改查,并且很方便。

  1. 将数据生成表(一维,二维,三维)
  2. 查看表的各种信息
  3. 脏数据清洗(填充,更改,删除等)
  4. 数据预处理(排序,合并,分裂等)
  5. 数据提取
  6. 数据筛选(逻辑运算)
  7. 数据计算(求均值,和,差等科学计算)
  8. 数据统计
  9. 数据输出
  10. 可视化画图

将数据生成表

# 首先,在Python编译环境下,导入pandas库
import pandas as pd # 大部分工作者简写为pd
# 此时可以读取文件数据,或者自己生成数据
# 读取文件数据
data = pd.read_csv(r'',header=1) # 读取以csv结尾的文件数据,第一行为列名,如果数据中没有写列名,可以省略
data = pd.read_excel(r'') # 读取以excel结尾的文件数据
# 生成数据
ss = pd.Series() # 生成一维数据
df = pd.DataFrame([[1,2,3],
					[1,2,4],
					[4,2,5]],columns=['列名1','列名2','列名3'])
# 上述生成二维数据,columns是每列的列名

# 效果
列名1	列名2	列名3
0	1	2	3
1	4	5	6
2	7	8	9
# 第一列为下标索引,默认生成,也可以使用index来更改

查看表的各种信息

数据生成以后,我们可以对其进行各种信息查看,类似于munpy

# 维度查看
df.shape

# 数据表基本信息
df.info()
>>	# 效果
>>	<class 'pandas.core.frame.DataFrame'>
>>	RangeIndex: 3 entries, 0 to 2
>>	Data columns (total 3 columns
  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值