BeautifulSoup4解析页面
步骤:
1.requests - 请求页面,得到响应结果
2.BeautifulSoup4 - 根据响应结果解析页面、提取数据
3.写入文件、数据库
(bs4 就是 BeautifulSoup4)
bs4模块能够从html或者xml中提取数据。
BeautifulSoup(网页源码,解析器) -> 将字符串类型的源代码转换为bs4类型。
bs模块提供了一系列提取数据的方法,这些方法的操作对象的bs4类型的数据。
headers = {} --> headers是应该字典:{key:value}。headers是给爬虫提供伪装的。
User-Agent --> 将爬虫伪装成浏览器。
为什么要对比打印结果和网页中的内容是否一致?
网页:分为静态页面和动态页面
静态页面:内容写死的,除非人为的进行内容修改,否则这个页面的内容是一成不变的。
动态页面:内容不是写死的,使用某种特殊的技术(JavaScript)使数据通过某种方式显示在页面中。
requests得到的结果是静态页面的结果。
select:根据CSS选择器(标签、class、id等)定位数据,得到的是符合这选择器的所有结果。(整体是列表,列表中每一个元素是一个bs4类型的数据)。
select_one:根据CSS选择器(标签、class、id等)定位数据,得到的是符合这选择器的一个结果。(是一个bs4类型数据)。
text:从bs4类型数据中提取标签内的内容,结果为str.
attris:从bs4类型数据中提取标签内容属性值,结果为str.
import requests
from bs4 import BeautifulSoup
for page in range