python中text格式_python读取各种格式的文本

1. 读取word文本

Python可以利用python-docx模块处理word文档,处理方式是面向对象的,python-docx模块会把word文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

1 Document对象,表示一个word文档。

2 Paragraph对象,表示word文档中的一个段落

3 Paragraph对象的text属性,表示段落中的文本内容

首先在cmd命令行中输入pip install python-docx安装 python-docx模块,安装后导入模块,代码如下:

import docx

#获取文档对象

file=docx.Document("D:\\App\\Relevance reconsidered.docx")

print("段落数:"+str(len(file.paragraphs)))

#输出每一段的内容

for para in file.paragraphs:

print(para.text)

#输出段落编号及段落内容

for i in range(len(file.paragraphs)):

print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

示例代码——从word文档中读取文本,利用python的jieba分词包进行停用词处理和词频统计:

import docx

import jieba

#获取文档对象

file=docx.Document("D:\\App\\Relevance reconsidered.docx")

print("段落数:"+str(len(file.paragraphs)))

text = "" # 接收word文本内容

for para in file.paragraphs:

text += para.text

# print(text)

# 分词

words = jieba.cut(text, cut_all = False)

stopwords=[] # 设置停用词

for word in open(r"D:\App\stop_word.txt",'r'): # 这里加载停用词的路径

stopwords.append(word.strip())

# 停用词过滤

stayed_line=""

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值