1. 读取word文本
Python可以利用python-docx模块处理word文档,处理方式是面向对象的,python-docx模块会把word文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。
1 Document对象,表示一个word文档。
2 Paragraph对象,表示word文档中的一个段落
3 Paragraph对象的text属性,表示段落中的文本内容
首先在cmd命令行中输入pip install python-docx安装 python-docx模块,安装后导入模块,代码如下:
import docx
#获取文档对象
file=docx.Document("D:\\App\\Relevance reconsidered.docx")
print("段落数:"+str(len(file.paragraphs)))
#输出每一段的内容
for para in file.paragraphs:
print(para.text)
#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)
示例代码——从word文档中读取文本,利用python的jieba分词包进行停用词处理和词频统计:
import docx
import jieba
#获取文档对象
file=docx.Document("D:\\App\\Relevance reconsidered.docx")
print("段落数:"+str(len(file.paragraphs)))
text = "" # 接收word文本内容
for para in file.paragraphs:
text += para.text
# print(text)
# 分词
words = jieba.cut(text, cut_all = False)
stopwords=[] # 设置停用词
for word in open(r"D:\App\stop_word.txt",'r'): # 这里加载停用词的路径
stopwords.append(word.strip())
# 停用词过滤
stayed_line=""