-
请求数据:requests库(这个库可以非常方便的去请求网络数据)
- 安装方法:pip install requests
-
将请求下来的数据解析出来,获取我们想要的数据,把不想要的数据抛弃掉。
- BeautifulSoup:pip install bs4
- lxml:pip install lxml
-
将解析后的数据保存下来。如果是文字类型的,可以保存到文件中或者是数据库中或者缓存中都可以。如果是文件类型,比如图片,视频,那么可以保存到硬盘中。
-
无论你的爬虫是大还是小,他都是由这几个模块组成的。
#encoding:utf-8
#1.请求数据:requests库(请求网络数据)
#2.将请求下来的数据解析出来,获取相关要的数据:BeautifulSoup,lxml
#3.将解析后数据保存下来(格式有文字,图片,视频音频等)
import requests
#对请求身份进行伪装
requests.get(‘https://www.doutula.com/article/list/?page=1’)