Pandas模块的知识——数据预处理

最新推荐文章于 2023-03-30 22:46:44 发布

一个有故事的女同学

最新推荐文章于 2023-03-30 22:46:44 发布

阅读量323

点赞数

文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/u010493489/article/details/88676581

版权

一、dataframe结构

读取CSV文件
pandas.read_csv(‘C:/Users/86183/Desktop/123.csv’) 为Dataframe类型
文件类型查看

|print(type(food))| |
字符型得值叫Object

-3
food.head() 如果括号里默认值，则只显示前四行，如果括号值为8，则显示前八行
food.tail(4) 从后往前得四个值
列名，指标得查看，即为第一行。food.columns
4、取数据
food.loc[0] 取第一个数据
5、dataframe类型
object 字符类型
int 整型
float 浮点型
datetime 时间类型
bool 布尔类型
6、通过列名称来定位
xuhao = food[“xuhao”]
得到序号得列中得第几个和第几个对应得数字
定位两个列：colu =[“xuhao,men”]
huo =food.colu.tolist()
7、数据计算
div_1000 = food[“mouyilie”]/100
对应位置得计算*/
8、最大值最小值均值
某一列得最大值 food[“列名”].max
归一化操作： normalized_lie =food[“lie”]/food[“lie”].max()
9、排序得操作
new =food.sort_values(“lie”,inplace=True) 从小到大排列
Inplace来确定是在原来基础上排序，还是在新增得图表中排序
new= food.sort_values(“lie”,inplace=True，ascending =False) 从大到小排列。默认是升序排列
（2）不仅要把所对应得列进行排序，还希望把索引顺序号排列，
new_reindex=nei.reset_index(drop=True) ,为true表示为原来的索引值不要了
10、age_is_null = pandas.isull(age) 判断年龄列是否有缺失值，有缺失为true。无确实为false。
len()计算长度
在计算平均值时，如果有缺失值Nan，那么需要去掉缺失值。方法如下
good=food[“列名”][age_is_full==False]
平均值food[“列名”].mean()
11、pivot_table 统计
food.pivot_table(index=“为基准得列表名”，values=“统计值和基准量之间得关系”，aggfunc=np.mean)
计算平均值，如果后面不写，默认均值
12、丢掉缺失值
food.dropna（axis=1）丢掉缺失值
food.dropna(axis=,subset=[“列1”，“列2”])
13、定位
food.loc[8,“age”] 对food得表格第8行得对应得age列得数
14、apply函数。
把定义的函数应用到表格中。
二、series 某一行某一列叫series