这篇文章主要介绍了Python 50行爬虫抓取并处理图灵书目过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
前言
使用 requests进行爬取、BeautifulSoup进行数据提取。
主要分成两步: 第一步是解析图书列表页,并解析出里面的图书详情页链接。 第二步是解析图书详情页,提取出感兴趣的内容,本例中根据不同的数据情况,采用了不同的提取方法,总的感觉就是BeautifulSoup用起来很方便
以下是几个典型HTML内容提取的Python代码片段
1、提取详情页链接
列表页中的详情页链接片段
<h4 class="name">
<a href="/book/1921" rel="external nofollow" title="深度学习入门:基于Python的理论与实现">
深度学习入门:基于Python的理论与实现
</a>
</h4>
提取详情页链接的Python代码
# bs是BeautifulSoup的instance
bs.select('.name')
for 详情链接信息 in bs.select('.name'):
# 提取出链接
print(详情链接信息.a.get('href'))
2、提取详情页中的图书名称
详情页中图书名称HTML代码
<h2>
深度学习入门:基于Python的理论与实现
</h2>
提取图书名称的Python代码
# 因为提取出来的文字前后还带了很