小白爬虫 Day2

最新推荐文章于 2024-11-09 13:16:37 发布

Calmness °

最新推荐文章于 2024-11-09 13:16:37 发布

阅读量195

点赞数

分类专栏：爬虫 python 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_43301990/article/details/109371723

版权

本文介绍了如何使用Python爬虫从纵横中文网抓取小说的基本信息，包括小说名、类别和字数。通过分析HTML结构，利用pyquery库，成功实现了数据的爬取并进行了数据合并。

摘要由CSDN通过智能技术生成

爬取单个页面小说信息

今日爬取信息网站为纵横中文网，爬取小说的一些基本信息，小说网站页面如下：
在这里插入图片描述
我们选择小说名称，小说类型和字数这三个信息进行爬取。
新增环境pyquery，直接pip install pyquery即可。
为什么用pyquery呢，因为简单…

1.爬取小说名

首先分析网页HTML的结构，在小说名处右键点击检查可以看到网页html代码，如图
在这里插入图片描述
可以看到每个li标签内的bookname属性就是小说名字，那现在目标就很明确了，爬取所有li的bookname！

from pyquery import PyQuery as pq
doc=pq(url='http://www.zongheng.com/rank/details.html?rt=1&d=0&r=')
lis=doc('li').items()#找到所有的li标签
for li in lis:       #遍历每个li节点
    print(li.attr('bookname'))#输出每个li节点bookname属性的内容