基于
Python
的新闻聚合系统网络爬虫研究
左卫刚
【摘
要】
摘
要
本研究旨在创建一个能够从不同页面布局中提取数据的开源爬
虫,其中包括网络爬虫、
API
、网络爬虫调度器以及
Socket
服务器的实现等。
使用
Python
语言开发网络爬虫,利用
BeautifulSoup
作为网络爬虫的
Web
提取工具,以
Laravel
为
Web
应用程序框架,
PHP
作为主要后端语言,承载
CMS
和
API
。网络爬虫可以通过利用用户创建的配置文件来适应从不同的页面
布局中提取数据,并将提取的数据导出到
JSON
文件或数据库系统中。
【期刊名称】
武汉船舶职业技术学院学报
【年
(
卷
),
期】
2019(000)001
【总页数】
5
【关键词】
关键词
网络爬虫
;
新闻聚合系统
网络中的冗余信息过多,用户阅读不同的信息需要在不同站点之间频繁切换,
这无形中增加了获取新闻的难度,也增加了时间成本。
因此需要构建一个新闻聚合系统从多个来源收集新闻,并以特定的格式进行汇
总。新闻聚合系统中的新闻数据需要通过网络爬虫来获取,这其中包括
web
爬
虫、
CMS
、
API
、
web
爬虫调度器和
socket
服务器的实现等。
1
工具
1.1
网络爬虫
网络爬虫是一个特定的机器人,是一种按照一定的规则,自动地抓取网络信息
的程序或脚本。目前主要有以下几个比较实用的工具可以用来抓取网站并提取
其内容: