网络爬虫的规则

最新推荐文章于 2024-02-02 03:52:16 发布

Laicaling

最新推荐文章于 2024-02-02 03:52:16 发布

阅读量1.7k

点赞数

分类专栏：网络爬虫数据采集 http代理

本文链接：https://blog.csdn.net/Laicaling/article/details/107616155

版权

本文介绍了网络爬虫的类型、应用以及运行原理，包括通用网络爬虫和聚焦网络爬虫。同时，讨论了网络爬虫可能面临的限制，如服务器性能、法律风险和个人隐私问题。针对这些问题，提出了使用代理和伪装成浏览器的策略，以实现更高效、稳定的网络爬虫操作。

摘要由CSDN通过智能技术生成

1.网络爬虫：自动从互联网中定向（有目标、过滤无关信息）或不定向（随机）地采集信息的一种程序。常用的类型有：通用网络爬虫（不定向）、聚焦网络爬虫（定向设置过滤规则）。
2.网络爬虫的应用：①搜索引擎②采集金融数据③采集商品数据④自动过滤广告⑤采集竞争对手的客户数据⑥采集行业相关数据，进行数据分析…
3.网络爬虫的运行原理
（1）通用网络爬虫：
①获取初始URL；②爬取页面并获取新的URL;③将爬取的内容放到服务器中，将新URL放入URL队列；④读取新URL，重复②③④；⑤直到满足停止条件结束。
（2）聚焦网络爬虫：
①对抓取目标进行相应的定义或描述；②获取初始URL；③爬取页面并获得新的URL；④将爬取的内容放到服务器中，过滤无关链接后，将新URL放入URL队列中；⑤确定下一步抓取目标，重复①②③④⑤；⑥直到满足停止条件结束。
限制网络爬虫
• 对服务器性能的骚扰问题
• 内容层面的法律风险问题
• 个人隐私泄露问题
因此，我们说网络爬虫的使用是要有它的规则。在实际的使用中，一些较大的网站都对网络爬虫有相关的限制。那么针对这些网站应该做出那些相应的策略：
1 使用代理亿牛云代理
适用情况：大部分网站均限制了IP的访问量
对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。
#! -- encoding:utf-8 --
import requests
import random
# 要访问的目标页面