抓取规则
1.循环读取当前文件夹“docx”文件
2.每个文件,从第一行开始,循环读取每段内容,直至“复印期号:”段落,结束循环。
3.每个文件抓取的各条目特征:
题目:第一行
副标题:检索到段前有“——”则此行为副标题,合并进题目后
作者:“作 者:”的下一行
作者简介:“作者简介:”的下一行
原发信息:“原发信息:”的下一行
内容提要:“内容提要:”的下一行,有的文章没有
关键词:“关 键 词:”的下一行,有的文章没有
期刊名称:“期刊名称:”之后的文字
复印期号:“复印期号:”之后的文字。
字数:暂无
代码:
import docx,os,openpyxl
dirpath = './'
list = []
desfile = 'desfile.xlsx'
title = '';author = '';custom = '';primaryinformation = '';abstract = '';ukeyword =