BeautifulSoup4解析页面

BeautifulSoup4解析页面

步骤:
1.requests - 请求页面,得到响应结果
2.BeautifulSoup4 - 根据响应结果解析页面、提取数据
3.写入文件、数据库
(bs4 就是 BeautifulSoup4)
bs4模块能够从html或者xml中提取数据。
BeautifulSoup(网页源码,解析器) -> 将字符串类型的源代码转换为bs4类型。
bs模块提供了一系列提取数据的方法,这些方法的操作对象的bs4类型的数据。
headers = {} --> headers是应该字典:{key:value}。headers是给爬虫提供伪装的。
User-Agent --> 将爬虫伪装成浏览器。

为什么要对比打印结果和网页中的内容是否一致?

网页:分为静态页面和动态页面
静态页面:内容写死的,除非人为的进行内容修改,否则这个页面的内容是一成不变的。
动态页面:内容不是写死的,使用某种特殊的技术(JavaScript)使数据通过某种方式显示在页面中。
requests得到的结果是静态页面的结果。
select:根据CSS选择器(标签、class、id等)定位数据,得到的是符合这选择器的所有结果。(整体是列表,列表中每一个元素是一个bs4类型的数据)。
select_one:根据CSS选择器(标签、class、id等)定位数据,得到的是符合这选择器的一个结果。(是一个bs4类型数据)。
text:从bs4类型数据中提取标签内的内容,结果为str.
attris:从bs4类型数据中提取标签内容属性值,结果为str.

import requests
from bs4 import BeautifulSoup
for page in range
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值