【python爬虫专项(2)】网页结构剖析

1. 如何查看网页结构

以豆瓣网为例:https://book.douban.com/subject_search?search_text=%E6%95%B0%E6%8D%AE&cat=1001

1)浏览器:谷歌浏览器 - chrome

2)开启开发者模式:右键 → 检查
在这里插入图片描述
3)查看源代码:右键 → 查看网页源代码
在这里插入图片描述

2. 如何构建爬虫逻辑

2.1 一个简单的框架图

在这里插入图片描述

2.2 爬虫基本逻辑(一):【分页网页url采集】-【数据信息网页url采集】-【数据采集】

该逻辑1个数据信息网页采集1条数据

第一步【分页网页url采集】→ 得到一个分页的urllst1

    ① 找到分页网址 → 比如这里以之前的爬取实习僧网站的python实习生的信息举例

            https://www.shixiseng.com/interns?page=1&keyword=python&type=intern&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
             https://www.shixiseng.com/interns?page=2&keyword=python&type=intern&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
            https://www.shixiseng.com/interns?page=3&keyword=python&type=intern&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
             。。。。。。

    ② 这里由于网页只需要更改“page=…”,所以通过for循环即可
在这里插入图片描述
第二步【数据信息网页url采集】→ 得到一个数据页的urllst2

    ① 基于分页网址urllst1,采集每一个数据页面的url,并存入urllst2

            https://www.shixiseng.com/intern/inn_j34ozcntlsab
            https://www.shixiseng.com/intern/inn_fxckjairtwke
            https://www.shixiseng.com/intern/inn_2bjwgimxguda
             。。。。。。

    ② 这里需要用到requests + BeautifulSoup实现
在这里插入图片描述
第三步【数据采集】→ 每条数据存进一个dict,所有dict组成一个datalst列表

     ① 通过BeautisulSoup解析标签,采集数据
在这里插入图片描述
     ② 通过BeautisulSoup实现(接下来要将的内容)

在这里插入图片描述

2.3 爬虫基本逻辑(二):【分页网页url采集】-【数据采集】

该逻辑也可以称为:“循环标签采集”:1个分页网页采集n条数据

          优势:相比于第一种逻辑,访问网页次数较少,容易避开反爬

          劣势:相比于第一种逻辑,获取信息较少

第一步【分页网页url采集】→ 得到一个分页的urllst1

     ① 找到分页网址 → 比如这里以之前的爬取实习僧网站的python实习生的信息举例

             https://www.shixiseng.com/interns?page=1&keyword=python&type=intern&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
             https://www.shixiseng.com/interns?page=2&keyword=python&type=intern&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
             https://www.shixiseng.com/interns?page=3&keyword=python&type=intern&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
             。。。。。。

    ② 这里由于网页只需要更改“page=…”,所以通过for循环即可
在这里插入图片描述
第二步【数据采集】→ 每条数据存进一个dict,所有dict组成一个datalst列表

    ① 通过for循环依次采集该页面的多个标签
在这里插入图片描述
    ② 通过BeautisulSoup实现,进行网页的解析,获取标签信息全部存到dict里面

3.需要掌握的内容

网络资源访问工具:requests

掌握requests工具包,学会通过python访问网站,并做简单的内容识别

网页信息解析方法:Xpath与BeautifulSoup

掌握BeautifulSoup工具包,理解xpath网页解析方法,基本掌握静态网页的页面数据识别

爬虫数据库:MongoDB

掌握非关系数据库MongoDB,并且学会用python连接及使用MongoDB,管理采集数据

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lys_828

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值