cfile read 最大读取限制_pandas读取表格后的常用数据处理操作

最新推荐文章于 2024-01-18 14:03:08 发布

weixin_39738667

最新推荐文章于 2024-01-18 14:03:08 发布

阅读量305

点赞数

作者丨Sp4rkW 来源丨凹凸数据大家好，我是Sp4rkW

今天给大家讲讲pandas读取表格后的一些常用数据处理操作。这篇文章其实来源于自己的数据挖掘课程作业，通过完成老师布置的作业，感觉对于使用python中的pandas模块读取表格数据进行操作有了更深层的认识，这里做一个整理总结。本文总结了一些通过pandas读取表格并进行常用数据处理的操作，更详细的参数应该关注官方参数文档

1、读取10行数据

2、对读取的数据重新定义列名

3、取出某列值为指定值的所有数据

这里我们做一个简单的遍历操作即可完成，取值使用的函数是ix。

name_columns = [' ','名字','类型', '城市', '地区', '地点', '评分', '评分人数', '价格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
hotel_name_list = []for i in range(421):if tabledata.ix[i,2] == "商务出行":
        hotel_name_list.append(tabledata.ix[i,1])
print(hotel_name_list)

4、取出某一列的数值是缺失值的数据

这里开始出现缺失值，提一下缺失值相关的两个参数：

na_values：默认会将'-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', '', 转换为NaN，且na_values参数还支持定义另外的应处理为缺失值的值

原版解释：

na_values
: scalar, str, list-like, or dict, default None
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''

keep_default_na：bool型，决定是否自动转NaN

name_columns = [' ','名字','类型', '城市', '地区', '地点', '评分', '评分人数', '价格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['类型'].isnull()]
print(tableline)

5、只修改某一列的缺失值

fillna函数用于替换缺失值，常见参数如下：

value参数决定要用什么值去填充缺失值
axis：确定填充维度，从行开始或是从列开始
limit：确定填充的个数，int型

通常limit参数配合axis可以用于替换数量方向的控制我们这里根据需求，最简单的就是将需要修改的这一列取出来进行修改，之后对原数据进行列重新赋值即可

name_columns = [' ','名字','类型', '城市', '地区', '地点', '评分', '评分人数', '价格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata['类型'].fillna(value='其他')
tabledata['类型'] = tableline
print(tabledata)

6、修改某一列，用平均值代替缺失值

这个的思路和上面一个基本一致，区别在于我们需要线求出平均值。平均值的求解肯定不需要缺失值参与，于是我们先取出某一列不存在的缺失值的所有数据，再取出这一列数据，通过mean函数直接获取平均值。同理的函数使用还有：

mean()平均值
median()中位数
max()最大值
min()最小值
sum()求和
std()标准差
Series类型独有的方法：argmax()最大值的位置 argmin()最小值的位置

name_columns = [' ','名字','类型', '城市', '地区', '地点', '评分', '评分人数', '价格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['评分'].isnull().values==False]
score_avg = tableline['评分'].mean()
tableline = tabledata['评分'].fillna(value=score_avg)
tabledata['评分'] = tableline
print(tabledata)

近期精彩内容推荐：

程序员这碗青春饭，怎么吃得更久一点？

顺丰小哥连升3级，国家授予特别奖！

狠人 Spring Cloud 20000 字总结！

python实现文件自动归类

在看点这里好文分享给更多人↓↓