爬取单个页面小说信息
今日爬取信息网站为纵横中文网,爬取小说的一些基本信息,小说网站页面如下:
我们选择小说名称,小说类型和字数这三个信息进行爬取。
新增环境pyquery,直接pip install pyquery即可。
为什么用pyquery呢,因为简单…
1.爬取小说名
首先分析网页HTML的结构,在小说名处右键点击检查可以看到网页html代码,如图
可以看到每个li标签内的bookname属性就是小说名字,那现在目标就很明确了,爬取所有li的bookname!
from pyquery import PyQuery as pq
doc=pq(url='http://www.zongheng.com/rank/details.html?rt=1&d=0&r=')
lis=doc('li').items()#找到所有的li标签
for li in lis: #遍历每个li节点
print(li.attr('bookname'))#输出每个li节点bookname属性的内容
运行结果:
上面的几个None是一些没用的li标签,之后的便都是小说名字啦。