Python爬虫4-Lxml库与Xpath语法

本文介绍了使用Python的Lxml库和XPath语法进行网络爬虫的实战案例,包括爬取豆瓣图书TOP250的数据并存储为CSV文件,以及抓取起点中文网的小说信息并保存到Excel。详细讲解了爬虫思路和代码实现,涉及URL规律分析、数据提取和文件存储。
摘要由CSDN通过智能技术生成

目录 

5.1综合案例-爬取豆瓣图书TOP250的数据

5.1.1将数据存储到CSV文件中 

5.1.2爬虫思路分析

5.1.3爬虫代码

5.2综合案例-爬取七点中文网小说信息

5.2.1将数据存储到Excel中

5.2.2爬虫思路分析 

5.4.3爬虫代码分析


5.1综合案例-爬取豆瓣图书TOP250的数据

        利用request和Lxml第三方库,爬取豆瓣图书top250数据,并存储到CSV格式的文件中。

5.1.1将数据存储到CSV文件中 

import csv

fp = open("test.csv",'w+')

writer = csv.writer(fp)

writer.writerow(('id','name'))
writer.writerow(('1','xiaoming'))
writer.writerow(('2','张三'))
writer.writerow(('3','李四'))

fp.close()

5.1.2爬虫思路分析

(1)翻阅网页可以发现其规律如下

        https://book.douban.com/top250

        https://book.douban.com/top250?start=25

        https://book.douban.com/top250?start=50

        我们可以看出,网页间隔是25,我们首页这样也是可以https://book.douban.com/top250?start=0。由此我们就可以构造出我们想要的URL列表了。

(2)爬取的信息有:书名、书本的URL连接、作者、出版社、和出版时间、价格、评分和评论。

5.1.3爬虫代码

import requests
import csv
from lxml import etree

fp = open('douban_book.csv','wt',newline='&#
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值