爬虫实现介绍

最新推荐文章于 2023-09-19 11:57:14 发布

昭刈

最新推荐文章于 2023-09-19 11:57:14 发布

阅读量111

点赞数

分类专栏：项目实训

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anzhaoyi/article/details/118659650

版权

项目实训专栏收录该内容

15 篇文章 0 订阅

订阅专栏

基于爬虫的语义泛化系统，爬虫主要有两种实现思路。

直接发送Http请求，根据Response进行分析获取数据。
模拟真实网页环境，程序内部运行一个浏览器内核，通过页面分析和执行JS脚本获取数据。

优劣分析

方法一实现起来简单，而且占用资源少，但是容易被网站识别，获取不到想要的信息，要尽可能模拟真实的访问才行。方案二功能更强大，可以执行页面的JS脚本，获取更多的信息，但时内部运行一个浏览器内核开销相对方案一大很多，不适合大规模使用。

我们之后的工作主要是基于方案一进行爬虫编写与测试，目前计划项目所需要的python库有requests，bs4等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫实现介绍

基于爬虫的语义泛化系统，爬虫主要有两种实现思路。直接发送Http请求，根据Response进行分析获取数据。模拟真实网页环境，程序内部运行一个浏览器内核，通过页面分析和执行JS脚本获取数据。优劣分析方法一实现起来简单，而且占用资源少，但是容易被网站识别，获取不到想要的信息，要尽可能模拟真实的访问才行。方案二功能更强大，可以执行页面的JS脚本，获取更多的信息，但时内部运行一个浏览器内核开销相对方案一大很多，不适合大规模使用。我们之后的工作主要是基于方案一进行爬虫编写与测试，目前计划项目所需要的p
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。