一.什么是爬虫
1.什么是爬虫?
请求网站并且提取数据的自动化程序
简单来说就是用来爬取数据的脚本
2.为啥要爬取数据?
因为市场需要,各行各业都需要数据比如大模型,人工智能,数据分析,大数据等
3.爬虫的本质
模拟客户端(浏览器)发起请求 接收响应
原则上 只要是浏览器(app)能看到的,都可以爬取,万物皆可爬
二.浏览器显示网页过程
1.输入URL并发起请求
2.DNS解析(DNS服务器:具有将域名转换为IP地址的功能,网站一个域名必将对应一个IP)
3.请求网站
4.接受响应与页面渲染
三.爬虫步骤
1.明确目标URL
(1)url是什么:
统一资源定位符:是用于完整的描述Internet上网页和其他资源的地址的一种标识方法
(2)url的组成:
eg:https://www.runoob.com/python/python-tutorial.html
http(协议):http是超文本传输协议