1. requests
在Python3中,可以使用urllib.request和requests进行网页爬取。
- urllib库是python内置的,无需安装
- requests库是第三方库,需自行安装
1.1 安装命令
pip install requests
1.2 requests的基础方法
方法 | 说明 |
---|---|
requests.request() | 构造一个请求,支撑以下方法的基础方法 |
requests.get() | 获取HTML网页,对应HTTP的GET |
requests.head() | 获取HTML网页的头信息,对应HTTP的HEAD |
requests.post() | 向网页提交POST请求的方法,对应HTTP的POST |
requests.put() | 向HTML网页提交PUT请求的方法,对应HTTP的PUT |
requests.putch() | 向HTML网页提交局部修改请求,对应HTTP的PATCH |
requests.delete() | 向HTML页面提交删除请求,对应HTTP的DELETE |
2. Beautiful Soup
2.1 安装命令
pip install beautifulsoup4
3. 库的导入
import requests
from bs4 import BeautifulSoup
4. 实战 - 小说爬取
目标网站:https://www.52bqg.net/
首先查看网站的robots.txt文件:https://www.52bqg.net/robots.txt
可以看到除js和css文件外其余内容都是允许爬取的
4.1获取网页内容
import requests
from bs4 import BeautifulSoup