自己做一个文档备份:
关于网页正文提取方法该论文下载地址:https://download.csdn.net/download/m0_51938266/87588818
现有实现该论文算法的开源项目:GeneralNewsExtractor/GeneralNewsExtractor: 新闻网页正文通用抽取器 Beta 版. (github.com)
以上仅为新闻网页主题内容提取;和一些信息的拓展提取。
还需文本关键字解析,文本校验,分类。循环提取网站中url重复以上操作。
计划做线程提取数据并插入的数据库中。
计划应用项目:传染病信息汇总