爬虫需要的用到库、方法以及步骤

1 网页

分为静态页面和动态页面。

  1. 静态页面:内容是写死的,除非人为的进行内容修改,否则这个页面的内容是一成不变的。
  2. 动态页面:内容不是写死的,使用某种特殊的技术(JavaScript)使数据通过某种方式显示在页面中。

2 需要用到的库

  1. requests请求页面,得到的结果是静态页面的结果。
  2. BeautifulSoup(网页源码,解析器):将字符串类型的源代码转换为bs4类型。
  3. bs模块提供了一系列提取数据的方法,这些方法的操作对象的bs4类型的数据。
    bs4模块能够从html或xml中提取数据

3 需要用到的方法

  1. select:根据CSS选择器(标签、class、id等)定位数据,得到的是符合这个选择器的所有结果(整体是列表,列表中每个元素是一个bs4类型的数据)。
  2. select_one:根据CSS选择器(标签、class、id等)定位数据,得到的是符合这个选择器的一个结果(是一个bs4类型数据)。
  3. text:从bs4类型数据中提取标签内的内容,结果为str。
  4. attris:从bs4类型数据中提取标签内容属性值,结果为str。

4 爬取数据的步骤

  1. 使用 requests请求页面,得到响应结果。
  2. 使用 BeautifulSoup4根据响应结果解析页面、提取数据。
  3. 将提取的数据写入文件、数据库。

一个小栗子:
请添加图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值