爬虫,爬取豆瓣书城首页的书籍信息,requests下载页面,三种解析方式(正则,bs4,xpath)

本文介绍了使用Python爬虫通过requests获取豆瓣书城页面,然后利用正则、BeautifulSoup(bs4)和XPath三种方式解析书籍的名称、作者、出版时间和出版社信息。详细展示了每种解析方法的实现代码。
摘要由CSDN通过智能技术生成

import requests
r=requests.get('https://book.douban.com/')
content=r.text


需要解析的主要HTMl

# <div class="info">
#               <div class="title">
#                 <a class="" href="https://book.douban.com/subject/30163860/?icn=index-editionrecommend"
#                   title="绿毛水怪">绿毛水怪</a>
#               </div>
#               <div class="author">
#                 王小波
#               </div>
#               <div class="more-meta">
#                 <h4 class="title">
#                   绿毛水怪
#                 </h4>
#                 <p>
#                   <span class="author">
#                     王小波
#                   </span>
#                

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值