爬取豆瓣图书首页的图书信息

最新推荐文章于 2024-02-28 21:57:36 发布

CH-Lee

最新推荐文章于 2024-02-28 21:57:36 发布

阅读量884

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_40567229/article/details/84201041

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

使用requests库和re库来爬取豆瓣图书首页的图书信息

import requests
import re

content = requests.get("http://book.douban.com").text    #get函数获取豆瓣图书网页代码
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?alt="(.*?)".*?author">(.*?)<',re.S)    #complip函数保存正则式
result = re.findall(pattern,content)    #findall寻找符合正则式的信息
for results in result:
    url,name,author = results
    url = re.sub('\s',' ',url)    #将换行符转换为空格
    name = re.sub('\s',' ',name)
    author = re.sub('\s','',author)
    print(url,name,author)

爬取结果:

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CH-Lee

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬取豆瓣图书首页的图书信息

使用requests库和re库来爬取豆瓣图书首页的图书信息 import requestsimport recontent = requests.get("http://book.douban.com").text #get函数获取豆瓣图书网页代码pattern = re.compile('&lt;li.*?cover.*?href="(.*?)".*?alt="(.*?)"....
复制链接

扫一扫