一个网站新闻页通用的正文抽取组件libnpce

一、背景

    在舆情系统中,通常会有一个网络新闻爬虫子系统,准实时的采集互联网上的媒体新闻数据,以供上层聚类事件分析。这类新闻数据的组成元素包括:

  • 标题
  • 发布时间
  • 来源及其URL链接地址
  • 正文文本内容
  • 正文图片信息(图片位置、图片的URL路径等)
  • 其他

二、libnpce组件

    新闻文章正文抽取News Passage Content Extractor (NPCE),是为抽取HTML中的文章正文而设计的。该组件提供给予so动态链接库的调用接口和给予RESTful服务调用的接口形式。并支持python调用接口。

   详细介绍可参考:https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

 

三、组件演示

打开页面:

   https://gitee.com/inrgihc/libnpce/releases/v1.0

下载httpd_npce_py-v1.0-bin.tar.gz文件,在centos环境下解压,然后执行:

cd httpd_npce_py/
./startup.sh

命令启动服务,打开浏览器访问服务器上的服务:http://XXX.XXX.XXX.XXX:7645

在页面中的URL栏中粘贴一个新闻页面的URL地址,然后点击右侧的“抽取”按钮查看效果,我的截图如下:

抽取的URL地址:http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

三、性能测试

    经本人工作期间,将libnpce与计算所的constor组件(闭源)进行比较测试,性能相当,并应用在公司底层的爬虫模块中进行实时正文抽取。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值