python 关于csv文件的使用总结

这篇博客总结了Python中处理CSV文件的各种操作,包括读取文件、重定义列名、统计数据条数、空值统计、类别数据量统计、类别转换为ID、自定义列名、抽样数据以及文本预处理的分词等步骤。
摘要由CSDN通过智能技术生成

读取文件

(lstm)

df=pd.read_csv('2.csv',encoding='gbk')

重新定义列名

(lstm)

df=df[['cat','review']] 
此处文件只有两列,故将两列分别定义为cat review

统计数据共有多少条

(lstm)

len(df)

统计该列的空值总数

(lstm)

df['cat'].isnull().sum()

统计各个类别的数据量

(lstm)

d={
   'cat':df['cat'].value_counts().index,'count':df['cat'].value_counts()}
#此处cat列为种类 eg.城乡建设 商贸旅游……
df_cat=pd.DataFrame(data=d).reset_index(drop=True)
print(df_cat)

在这里插入图片描述

将cat类转换成id eg 将城乡建设 0 交通运输 1 卫生计生 2……

(lstm)

df['cat_id']=df['cat'].factorize()[0]
cat_id_df=df[['cat','cat_id']].drop_duplicates().sort_values('cat_id').reset_index(drop=True)
cat_to_id=dict(cat_id_df.values)
id_to_cat=dict(cat_id_df[['cat_id','cat']].values)

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值