作用:批量爬取web网页上的数据
原理:正常用户访问服务器
正常用户 ---> 发送请求 ---->服务器 ----> 响应数据 ---->用户
爬虫模拟正常用户
注意: 所有的数据都能爬吗? 所见皆可爬,但是要合法
注意空值爬虫的频率问题
应用:大数据和人工智能
智能安防:产生视频
人脸识别:打拐
爬虫的分类:通用爬虫和聚焦爬虫
爬虫的基本流程:
1.导入requests模块
1)安装 pip install requests,
换源安装 pip install requests -i Simple Index
pycharm安装第三方库快捷键 Alt + Enter
导入 import requests
2) 查看网页静态加载还是动态加载
查看网页源代码---> Ctrl+F ----> 输入词组 ---> 判断动态还是静态, 有的话是静态,没有的话是动态
2.确定url地址
右键检查--network--刷新--response找到需要的内容--headers里面的url就是我们要找的url
url = '百度一下,你就知道'
3.发送请求-获取数据
res = requests.get(url=url)
print(res)
详细代码如下
import requests
url = 'https://www.baidu.com/'
res = requests.get(url=url)
print(res)