数据清洗 —— Pandas 的简单使用方法

pandas是用于数据清洗的库,是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

一、安装pandas

win+R打开cmd命令行输入pip install pandas即可,因为我已经安装了,这里就不展示图片了

二、导入包

import pandas as pd

2.1 向CSV写入数据

import pandas as pd

a = ['衬衫','工装裤','格子衫','打底裤','外套']
b = [99.0,286.0,298.0,279.0,59.0]

dataframe = pd.DataFrame({'商品':a,'价格':b}) #a,b对应列
dataframe.to_csv("taobao.csv",index=False,sep=',')

2.2 从CSV中读取数据

import pandas as pd
#从CSV中读取数据,还可以读取html、txt等格式的文件
data = pd.read_csv("text.csv")
print(data)

输出结果为:
商品 价格
0 衬衫 99.0
1 工装裤 286.0
2 格子衫 298.0
3 打底裤 279.0
4 外套 59.0

2.3 数据选择

2.3.1 行的选取

(1)切片

[a:b]

(2)索引 iloc(iloc[]适用于数据进行了筛选后造成索引号与原来不一致的情况)

data.iloc[1] 
data.iloc[1]['列名']

(3)指定位置 loc

data.loc[0]

列选择

data = pd.read_csv("text.csv")
rows = data[0:3] #打印0到2行数据
print(rows)

输出结果为:
商品 价格
0 衬衫 99.0
1 工装裤 286.0
2 格子衫 298.0

2.3.2 列的选取
columns = data[['商品','价格']]
rows = columns.iloc[1]
print(rows)

输出结果为:
商品 工装裤
价格 286

2.2.3 块的选取(行+列)
data = pd.read_csv("text.csv")
row = data.ix[0:3,['商品','价格']]
print(row)

这里有一个需要注意的地方,就是我在一本书上看到这样的一个例子
row = data.ix[0:3,[‘商品’,‘价格’]]
于是我print了一下发现出现了一个警告
在这里插入图片描述
警告显示原因是因为:

.ix已弃用。 请用
.loc用于基于标签的索引或
.iloc用于位置索引

把.ix改为.loc就可以了,具体可以参考pandas的官方文档

正在尝试写博客,把会的分享给你们,如有写的不好的地方,希望指点一下,谢谢!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值