python中text格式_python读取各种格式的文本

最新推荐文章于 2024-04-01 20:03:41 发布

weixin_39831503

最新推荐文章于 2024-04-01 20:03:41 发布

阅读量3.7k

点赞数 2

文章标签： python中text格式

1. 读取word文本

Python可以利用python-docx模块处理word文档，处理方式是面向对象的，python-docx模块会把word文档中的段落、文本、字体等都看做对象，对对象进行处理就是对word文档的内容处理。

1 Document对象，表示一个word文档。

2 Paragraph对象，表示word文档中的一个段落

3 Paragraph对象的text属性，表示段落中的文本内容

首先在cmd命令行中输入pip install python-docx安装 python-docx模块，安装后导入模块，代码如下：

import docx

#获取文档对象

file=docx.Document("D:\\App\\Relevance reconsidered.docx")

print("段落数:"+str(len(file.paragraphs)))

#输出每一段的内容

for para in file.paragraphs:

print(para.text)

#输出段落编号及段落内容

for i in range(len(file.paragraphs)):

print("第"+str(i)+"段的内容是："+file.paragraphs[i].text)

示例代码——从word文档中读取文本，利用python的jieba分词包进行停用词处理和词频统计：

import docx

import jieba

#获取文档对象

file=docx.Document("D:\\App\\Relevance reconsidered.docx")

print("段落数:"+str(len(file.paragraphs)))

text = "" # 接收word文本内容

for para in file.paragraphs:

text += para.text

# print(text)

# 分词

words = jieba.cut(text, cut_all = False)

stopwords=[] # 设置停用词

for word in open(r"D:\App\stop_word.txt",'r'): # 这里加载停用词的路径

stopwords.append(word.strip())

# 停用词过滤

stayed_line=""

最低0.47元/天解锁文章

weixin_39831503

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python中text格式_python读取各种格式的文本

1. 读取word文本Python可以利用python-docx模块处理word文档，处理方式是面向对象的，python-docx模块会把word文档中的段落、文本、字体等都看做对象，对对象进行处理就是对word文档的内容处理。1 Document对象，表示一个word文档。2 Paragraph对象，表示word文档中的一个段落3 Paragraph对象的text属性，表示段落中的文本内容首先在...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。