爬虫豆瓣三部曲之书籍排行榜

这次附上代码简单看下 还是和以前差不多 简单的网页爬取 还是很简单。有的网站还有 ban ip 需要通过配置一些代理来访问。
代码附上
import csv
import requests
from lxml import etree
import re
f = open(r"存放的位置"’,‘w+’,newline=’’,encoding=‘utf-8-sig’)
write = csv.writer(f)
write.writerow((‘title’,‘author_publish_data’,‘mark’,‘pf’))
urls = [‘https://book.douban.com/top250?start={}’.format(str(i)) for i in range(0,250,25)]
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36’}
for url in urls:
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
infos = selector.xpath(’//td[@valign=“top”]’)
for info in infos:
title = info.xpath(‘div[1]/a/@title’)
author_publish_data = info.xpath(‘p[@class=“pl”]/text()’)
mark = info.xpath(‘div[2]/span[2]/text()’)
pf = info.xpath(‘p/span/text()’)
write.writerow((title,author_publish_data,mark,pf))
f.close()

看看就行。还是和上面的一样。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值