①用python读取pdf文件 里的内容
def read_pdf(path_list):
text=""
for file_path in path_list:
doc = fitz.open(file_path)
for page in doc:
text += page.get_text()
# 有得pdf读取不了 文字 所以说读取不到 文字时候 报错
if(text==""):
raise Exception("{file_path}的内容为空!")
return text
②读取完内容后,用jieba分词然后统计频次
def preprocess_text(text):
text = re.sub(r'[^\u4e00-\u9fa5]', '', text)
words = jieba.cut(text)
# jieba分割完词后统计频率
fenge = {}
for i in words:
if i not in fenge:
fenge[i]=1
else:
fenge[i]+=1
# 以下是 处理
# 对频率进行排序
words = sorted(fenge.items(),key=lambda x:x[1],reverse=True)
out = {}
for word,count in words:
out[word]=co