基于爬虫的语义泛化系统,爬虫主要有两种实现思路。
- 直接发送Http请求,根据Response进行分析获取数据。
- 模拟真实网页环境,程序内部运行一个浏览器内核,通过页面分析和执行JS脚本获取数据。
优劣分析
方法一实现起来简单,而且占用资源少,但是容易被网站识别,获取不到想要的信息,要尽可能模拟真实的访问才行。方案二功能更强大,可以执行页面的JS脚本,获取更多的信息,但时内部运行一个浏览器内核开销相对方案一大很多,不适合大规模使用。
我们之后的工作主要是基于方案一进行爬虫编写与测试,目前计划项目所需要的python库有requests,bs4等。