wordfile = Document(path + r'\Notice\会议通知 1.docx')
for paragraph in wordfile.paragraphs:
print(paragraph)
文件的文字排布脉络比较清晰,基本是一句话对应一个段落,而需要的信息可以简单通过判断每句话(每段话)前几个字而明确:
for paragraph in wordfile.paragraphs:
if paragraph.text[0:5] == '学习时间:':
study_time = paragraph.text[5:]
if paragraph.text[0:4] == '主持人:':
host = paragraph.text[4:]
if paragraph.text[0:5] == '学习形式:':
study_type = paragraph.text[5:]
对于学习内容的获取比较特殊,不像其他三个信息,都在一句话中,且关键字就为前几个字:
可以看到,“学习内容” 四个字和真正包含的内容分散在不同的句子中。这里简单用一个策略:
“
建立一个空列表存放,然后遍历每一段判断,如果一个字符为数字且第二个字符为中文顿号
“、”
就获取存放到列表中。最后把列表中的元素重新组合成一个长字符串即可:”
content_lst = []
for paragraph in wordfile.paragraphs:
if paragraph.text[0:5] == '学习时间:':
study_time = paragraph.text[5:]
if paragraph.text[0:4] == '主持人:':
host = paragraph.text[4:]
if paragraph.text[0:5] =&