读取文件
(lstm)
df=pd.read_csv('2.csv',encoding='gbk')
重新定义列名
(lstm)
df=df[['cat','review']]
此处文件只有两列,故将两列分别定义为cat review
统计数据共有多少条
(lstm)
len(df)
统计该列的空值总数
(lstm)
df['cat'].isnull().sum()
统计各个类别的数据量
(lstm)
d={
'cat':df['cat'].value_counts().index,'count':df['cat'].value_counts()}
#此处cat列为种类 eg.城乡建设 商贸旅游……
df_cat=pd.DataFrame(data=d).reset_index(drop=True)
print(df_cat)
将cat类转换成id eg 将城乡建设 0 交通运输 1 卫生计生 2……
(lstm)
df['cat_id']=df['cat'].factorize()[0]
cat_id_df=df[['cat','cat_id']].drop_duplicates().sort_values('cat_id').reset_index(drop=True)
cat_to_id=dict(cat_id_df.values)
id_to_cat=dict(cat_id_df[['cat_id','cat']].values)