【问】AttributeError: 'int' object has no attribute 'replace'???????


第二天接触python的"恐代码"小白TTTTTTTTTTT


代码如下:


```
import matplotlib.pyplot as plt
import pandas as pd


plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
inputfile='cs1.xlsx'# -*- coding: utf-8 -*-


outfile='1_.xlsx'
ot='cs1_qu.xlsx'




data=pd.read_excel(inputfile,encoding='utf-8')
data=data.dropna()
wen=list(data['简要病史'])


import jieba  
#加载停用词表
import codecs
with codecs.open('stopwords.txt','r') as f:
    text=f.read()
stoplists=text.splitlines()


we=[]
ll=[]
text=[]
for i in range(len(wen)):
    we.append(wen[i].replace(',',''))
    seg_list = jieba.cut(we[i])
    ll.append(' '.join(seg_list))
    text.append(''.join(list([word for word in ll[i] if word not in stoplists])))
#text去除停用词


#pd.DataFrame(ll).to_excel(ot)
#pd.DataFrame(ll).to_excel(outfile)




from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer


data_l=wen


vectorizer=CountVectorizer()   #该类会将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在i类文本下的词频  
transformer=TfidfTransformer() #该类会统计每个词语的tf-idf权值  


tfidf=transformer.fit_transform(vectorizer.fit_transform(ll))
#第一个fit_transform是计算tf-idf,第二个fit_transform是将文本转为词频矩阵  


word=vectorizer.get_feature_names()#获取词袋模型中的所有词语  
weight=tfidf.toarray()#将tf-idf矩阵抽取出来,元素a[i][j]表示j词在i类文本中的tf-idf权重  
pd.DataFrame(weight).to_excel('TFIDF.xlsx')
pd.DataFrame(word).to_excel('word_tf.xlsx')
 
```


运行结果:






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值