认识爬虫与开发者工具

 一.什么是爬虫

1.什么是爬虫?

请求网站并且提取数据的自动化程序

简单来说就是用来爬取数据的脚本

2.为啥要爬取数据?

因为市场需要,各行各业都需要数据比如大模型,人工智能,数据分析,大数据等

3.爬虫的本质

模拟客户端(浏览器)发起请求 接收响应

原则上 只要是浏览器(app)能看到的,都可以爬取,万物皆可爬

 二.浏览器显示网页过程

1.输入URL并发起请求

2.DNS解析(DNS服务器:具有将域名转换为IP地址的功能,网站一个域名必将对应一个IP)

3.请求网站

4.接受响应与页面渲染

三.爬虫步骤

1.明确目标URL

(1)url是什么:

统一资源定位符:是用于完整的描述Internet上网页和其他资源的地址的一种标识方法

(2)url的组成:

eg:https://www.runoob.com/python/python-tutorial.html

http(协议):http是超文本传输协议

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值