【01】爬虫概念——个人感觉最好的爬虫入门教程

5 篇文章 0 订阅
2 篇文章 0 订阅

**

一、概念**

爬虫就是一个程序。
通过这个程序,我们就能获取想要的数据。
解释1:通过爬虫程序,根据网页地址,获取数据;
解释2:使用爬虫程序模拟浏览器,去向服务器请求数据,获取相应数据。

二、爬虫核心

Step1:爬取网页。爬取整个网页,包含了网页中所有的内容;
Step2:解析数据。将网页中你得到的数据 进行解析;
Step3:爬虫与反爬虫之间的博弈。

三、爬虫的用途

数据分析/人工数据集
社交软件冷启动
陌陌APP
微博
舆情监控
竞争对手监控
京东、淘宝
抢票软件、爬取抖音、小红书、微博数据做冷启动、电商价格之争、政府部门数据

四、爬虫分类

通用爬虫
例如:百度、搜狗、360、Google等搜索引擎
功能:访问网页->抓取数据->数据存储->数据处理->提供检索服务
robots.txt
网站排名(SEO)
2. 聚焦爬虫
设计思路:
①确定要爬取的url;
②模拟浏览器通过HTTP协议访问url,获取服务器返回的HTML代码;
③解析html字符串(根据一定规则提取需要的数据)

五、反爬手段

①UA (User-Agent):就是浏览器的指纹
②代理IP:异于人类的操作的解决方案
③验证码访问
④动态加载网页
⑤数据加密:分析js代码

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值