【01】爬虫概念——个人感觉最好的爬虫入门教程

职业打工人的汉堡

于 2024-02-25 23:19:15 发布

阅读量488

点赞数 3

分类专栏：爬虫信息化 work 文章标签：爬虫 python javascript 计算机网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Anne_Stewart/article/details/136289084

版权

信息化同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

**

一、概念**

爬虫就是一个程序。
通过这个程序，我们就能获取想要的数据。
解释1：通过爬虫程序，根据网页地址，获取数据；
解释2：使用爬虫程序模拟浏览器，去向服务器请求数据，获取相应数据。

二、爬虫核心

Step1：爬取网页。爬取整个网页，包含了网页中所有的内容；
Step2：解析数据。将网页中你得到的数据进行解析；
Step3：爬虫与反爬虫之间的博弈。

三、爬虫的用途

数据分析/人工数据集
社交软件冷启动
陌陌APP
微博
舆情监控
竞争对手监控
京东、淘宝
抢票软件、爬取抖音、小红书、微博数据做冷启动、电商价格之争、政府部门数据

四、爬虫分类

通用爬虫
例如：百度、搜狗、360、Google等搜索引擎
功能：访问网页->抓取数据->数据存储->数据处理->提供检索服务
robots.txt
网站排名（SEO）
2. 聚焦爬虫
设计思路：
①确定要爬取的url；
②模拟浏览器通过HTTP协议访问url，获取服务器返回的HTML代码；
③解析html字符串（根据一定规则提取需要的数据）

五、反爬手段

①UA （User-Agent）：就是浏览器的指纹
②代理IP：异于人类的操作的解决方案
③验证码访问
④动态加载网页
⑤数据加密：分析js代码

职业打工人的汉堡

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【01】爬虫概念——个人感觉最好的爬虫入门教程

一、概念爬虫就是一个程序。通过这个程序，我们就能获取想要的数据。解释1：通过爬虫程序，根据网页地址，获取数据；解释2：使用爬虫程序模拟浏览器，去向服务器请求数据，获取相应数据。二、爬虫核心Step1：爬取网页。爬取整个网页，包含了网页中所有的内容；Step2：解析数据。将网页中你得到的数据进行解析；Step3：爬虫与反爬虫之间的博弈。三、爬虫的用途数据分析/人工数据集社交软件冷启动陌陌APP微博舆情监控竞争对手监控京东、淘宝抢票软件、爬取抖音、小红书、微博数据做冷启动、电
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。