小白爬虫 Day2

本文介绍了如何使用Python爬虫从纵横中文网抓取小说的基本信息,包括小说名、类别和字数。通过分析HTML结构,利用pyquery库,成功实现了数据的爬取并进行了数据合并。
摘要由CSDN通过智能技术生成

爬取单个页面小说信息

今日爬取信息网站为纵横中文网,爬取小说的一些基本信息,小说网站页面如下:
在这里插入图片描述
我们选择小说名称,小说类型和字数这三个信息进行爬取。
新增环境pyquery,直接pip install pyquery即可。
为什么用pyquery呢,因为简单…

1.爬取小说名

首先分析网页HTML的结构,在小说名处右键点击检查可以看到网页html代码,如图
在这里插入图片描述
可以看到每个li标签内的bookname属性就是小说名字,那现在目标就很明确了,爬取所有li的bookname!

from pyquery import PyQuery as pq
doc=pq(url='http://www.zongheng.com/rank/details.html?rt=1&d=0&r=')
lis=doc('li').items()#找到所有的li标签
for li in lis:       #遍历每个li节点
    print(li.attr('bookname'))#输出每个li节点bookname属性的内容

运行结果:
在这里插入图片描述
上面的几个None是一些没用的li标签,之后的便都是小说名字啦。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Calmness °

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值