python 爬虫基本组成

本文参考自python 爬虫基本组成

查看原文: 原文地址

基本组成

爬虫通常分为数据采集(网页下载)、数据处理(网页解析)和数据存储(有用的信息持久化)三个部分。

工作流程:

  1. 设定抓取目标(种子页面/起始页面)并获取网页。

  2. 当服务器无法访问时,按照指定的重试次数尝试重新下载页面。

  3. 在需要的时候设置用户代理或隐藏真实IP,否则可能无法访问页面。

  4. 对获取的页面进行必要的解码操作然后抓取出需要的信息。

  5. 在获取的页面中通过某种方式(如正则表达式)抽取出页面中的链接信息。

  6. 对链接进行进一步的处理(获取页面并重复上面的动作)。

  7. 将有用的信息进行持久化以备后续的处理。

解析工具

urllib

urllib.request 中的 Request urlopen

页面内容抓取工具

正则、lxml、bs4(BeautifulSoup)

lxml

etree.HTML(): 解析HTML对象

etree = etree.HTML(html)
  etree.xpath()

xpath 语法
表达式 作用
/ 根节点选取
// 在当前选择的文档中选取
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

beautifulSoup

安装包
  • pip install beautifulsoup4

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值