1.将数据读取进dataframe中
对词频进行排序
设置停用词,
筛选出去掉停用词之后的词的词频
删除纯数字的词
删除字符长度小于3的词
用正则将带数字的词也删除掉
由此可见d6是个字典,将其保存到excel中。将两个dataframe分别保存到连个sheet中
from pandas import DataFrame
data1=DataFrame(pd.Series(d6),columns=['times'])
data1_1=data1.reset_index().rename(columns={'index':'key_words'})
data2=DataFrame(pd.Series(frequency),columns=['times'])
data2_1=data2.reset_index().rename(columns={'index':'key_words'})
writer=pd.ExcelWriter('./india_word.xlsx')
data1_1.to_excel(writer,sheet_name='sheet1')
data2_1.to_excel(writer,sheet_name='sheet2')
writer.save()