利用解析库解析豆瓣图书top250图书信息

本文介绍了如何使用Python解析库,如XPath、BeautifulSoup和PyQuery,来爬取并解析豆瓣图书Top250的网页信息。通过分析豆瓣Top250的URL规律和HTML结构,编写爬虫程序抓取书籍信息,并将其保存到本地文件result.txt中。
摘要由CSDN通过智能技术生成

提取网页信息时用正则表达式还是比较繁琐,而且正则表达式太复杂时,有时还会出错,我们爬取的信息大多都是网页信息,网页HTML节点(标签)中定义了大量的id和class属性,而且节点之间还有层级关系。所以可以用解析库来解析信息。

三种解析库:

  • xpath

  • Beautiful Soup

  • PyQuery

利用解析库解析豆瓣图书top250信息并将解析的信息保存到本地。

1. 分析豆瓣图书top250网址

https://book.douban.com/top250?start=0

​ 当我们切换下一页时,只有start在改变,每页增加25,如第二页网址则为:

https://book.douban.com/top250?start=25
确定这个方便我们爬取后续的页数上的信息。

2. 分析网页源代码。

在这里插入图片描述

​ 利用浏览器自带的抓包工具可以分析出每本图书的信息放置在<tr class=‘item’>…</tr>中,右键查看网页源代码分析每本图书具体的具体信息

在这里插入图片描述

3. 编写爬虫代码

​ 爬虫部分主要分为三个部分:获取url并爬取网页内容、解析爬取回来的网页内容、保存解析出来的内容到本地。

  1. 获取url并爬取网页内容

    • 首先设置一个主函数main负责调用这个爬虫程序。
    def main(offset):
        """主程序函数,调用"""
        url = 'https://book.douban.com/top250?start=' + str(offset)
        # 获取url并爬取网页内容
        html = getPage(url)
        if html:
            # 解析爬取网页的内容
            for item in parsePage(html
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值