**
一、概念**
爬虫就是一个程序。
通过这个程序,我们就能获取想要的数据。
解释1:通过爬虫程序,根据网页地址,获取数据;
解释2:使用爬虫程序模拟浏览器,去向服务器请求数据,获取相应数据。
二、爬虫核心
Step1:爬取网页。爬取整个网页,包含了网页中所有的内容;
Step2:解析数据。将网页中你得到的数据 进行解析;
Step3:爬虫与反爬虫之间的博弈。
三、爬虫的用途
数据分析/人工数据集
社交软件冷启动
陌陌APP
微博
舆情监控
竞争对手监控
京东、淘宝
抢票软件、爬取抖音、小红书、微博数据做冷启动、电商价格之争、政府部门数据
四、爬虫分类
通用爬虫
例如:百度、搜狗、360、Google等搜索引擎
功能:访问网页->抓取数据->数据存储->数据处理->提供检索服务
robots.txt
网站排名(SEO)
2. 聚焦爬虫
设计思路:
①确定要爬取的url;
②模拟浏览器通过HTTP协议访问url,获取服务器返回的HTML代码;
③解析html字符串(根据一定规则提取需要的数据)
五、反爬手段
①UA (User-Agent):就是浏览器的指纹
②代理IP:异于人类的操作的解决方案
③验证码访问
④动态加载网页
⑤数据加密:分析js代码