Python爬虫4-Lxml库与Xpath语法

最新推荐文章于 2021-10-03 20:44:10 发布

查尔斯-狩乃

最新推荐文章于 2021-10-03 20:44:10 发布

阅读量398

点赞数

分类专栏： Python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_45112156/article/details/118938998

版权

本文介绍了使用Python的Lxml库和XPath语法进行网络爬虫的实战案例，包括爬取豆瓣图书TOP250的数据并存储为CSV文件，以及抓取起点中文网的小说信息并保存到Excel。详细讲解了爬虫思路和代码实现，涉及URL规律分析、数据提取和文件存储。

摘要由CSDN通过智能技术生成

5.1综合案例-爬取豆瓣图书TOP250的数据

5.1综合案例-爬取豆瓣图书TOP250的数据

利用request和Lxml第三方库，爬取豆瓣图书top250数据，并存储到CSV格式的文件中。

5.1.1将数据存储到CSV文件中

import csv

fp = open("test.csv",'w+')

writer = csv.writer(fp)

writer.writerow(('id','name'))
writer.writerow(('1','xiaoming'))
writer.writerow(('2','张三'))
writer.writerow(('3','李四'))

fp.close()

5.1.2爬虫思路分析

（1）翻阅网页可以发现其规律如下

https://book.douban.com/top250

https://book.douban.com/top250?start=25

https://book.douban.com/top250?start=50

我们可以看出，网页间隔是25，我们首页这样也是可以https://book.douban.com/top250?start=0。由此我们就可以构造出我们想要的URL列表了。

（2）爬取的信息有：书名、书本的URL连接、作者、出版社、和出版时间、价格、评分和评论。

5.1.3爬虫代码

import requests
import csv
from lxml import etree

fp = open('douban_book.csv','wt',newline='&#

最低0.47元/天解锁文章

查尔斯-狩乃

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫4-Lxml库与Xpath语法

5.1综合案例-爬取豆瓣图书TOP250的数据利用request和Lxml第三方库，爬取豆瓣图书top250数据，并存储到CSV格式的文件中。5.1.1将数据存储到CSV文件中import csvfp = open("test.csv",'w+')writer = csv.writer(fp)writer.writerow(('id','name'))writer.writerow(('1','xiaoming'))writer.writerow(('2','...
复制链接

扫一扫

专栏目录