python爬取豆瓣读书数据正则表达式

最新推荐文章于 2022-09-03 11:46:02 发布

handuoduo123

最新推荐文章于 2022-09-03 11:46:02 发布

阅读量757

点赞数 1

分类专栏： python爬虫文章标签： python 正则表达式

本文链接：https://blog.csdn.net/handuoduo123/article/details/105251102

版权

python爬虫专栏收录该内容

14 篇文章 1 订阅

订阅专栏

豆瓣读书数据抓取：

目标网址：https://book.douban.com/

目标数据：（1）书名（2）书的链接地址（3）作者（4）发行时间（5）出版社

在这里插入图片描述直接上代码啦
下面展示一些 内联代码片。

import requests
import re
#伪装浏览器头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:58.0) Gecko/20100101 Firefox/58.0'}
#发送请求
content = requests.get('https://book.douban.com/', headers=headers)
con = content.text


#根据正则表达式选择目标信息
pattern = re.compile('<li.*?cover.*?href="(.*?)title="(.*?)">.*?more-meta.*?author">(.*?)</span>.*?year">('
                     '.*?)</span>.*?publisher">(.*?)</span>.*?</li>', re.S)
results = re.findall(pattern, con)
#遍历输出
for result in results:
    print('书名：'+result[1]+'\n图书链接：'+result[0]+'\n作者：'+result[2].strip()+'\n发行时间：'+result[3]+'\n出版社：'+result[4])

格式不是很好看啦，有时间会完善的嘿嘿
在这里插入图片描述

handuoduo123

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
python爬取豆瓣读书数据正则表达式

豆瓣读书数据抓取：目标网址：https://book.douban.com/目标数据：（1）书名（2）书的链接地址（3）作者（4）发行时间（5）出版社直接上代码啦下面展示一些内联代码片。import requestsimport re#伪装浏览器头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:...
复制链接

扫一扫