Python 50行爬虫抓取并处理图灵书目过程详解

最新推荐文章于 2024-01-12 18:28:30 发布

程序员浩然

最新推荐文章于 2024-01-12 18:28:30 发布

阅读量1.5k

点赞数

分类专栏： python爬虫教程文章标签： python 编程语言

本文链接：https://blog.csdn.net/haoxun09/article/details/104741459

版权

这篇文章主要介绍了Python 50行爬虫抓取并处理图灵书目过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
前言

使用 requests进行爬取、BeautifulSoup进行数据提取。

主要分成两步：第一步是解析图书列表页，并解析出里面的图书详情页链接。第二步是解析图书详情页，提取出感兴趣的内容，本例中根据不同的数据情况，采用了不同的提取方法，总的感觉就是BeautifulSoup用起来很方便

以下是几个典型HTML内容提取的Python代码片段

1、提取详情页链接

列表页中的详情页链接片段

<h4 class="name">
 <a href="/book/1921" rel="external nofollow" title="深度学习入门：基于Python的理论与实现">
  深度学习入门：基于Python的理论与实现
 </a>
</h4>

提取详情页链接的Python代码

# bs是BeautifulSoup的instance
bs.select('.name')
for 详情链接信息 in bs.select('.name'):
 # 提取出链接
 print(详情链接信息.a.get('href'))

2、提取详情页中的图书名称

详情页中图书名称HTML代码

<h2>
   深度学习入门：基于Python的理论与实现
</h2>

提取图书名称的Python代码

# 因为提取出来的文字前后还带了很

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序员浩然

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Python爬虫系列教程 20-100】小姐姐是时候带大家做一个图灵机器人聊天自动回复，再也不担心孤独你尬聊！

weixin_54707168的博客

03-04

322

【Python爬虫系列教程 20-100】小姐姐是时候带大家做一个图灵机器人聊天自动回复，再也不担心孤独你尬聊！

图灵社区

weixin_34352005的博客

02-04

371

　　作为一个从业近二十年的人，如果说今天刚刚访问了图灵社区，是不是有点晚了？

参与评论您还未登录，请先登录后发表或查看评论

python 数据处理

weixin_39318540的博客

06-08

780

一.csv数据处理Csv文件格式：看下.csv文件的定义：逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字...

爬虫第三弹：图灵社区书籍信息爬取

qq_39677320的博客

06-14

750

爬虫第三弹：图灵社区书籍信息爬取一、目的：将图灵社区所有书籍的网址、书籍名称，作者，译者，阅读数，标签，出版日期，定价，页数，印刷方式，出版状态全部爬取下来存入mysql数据库，并导出xml格式，最后转化为csv格式。并对数据通过R语言分析，通过对标签和阅读数，出版日期的联合分析，分析现在计算机不同知识板块的热度信息。二、爬虫的功能分析1、通过对"http://www.ituring.com.cn...

简单爬虫，爬取书本图片。

bra_ve的博客

11-23

1007

爬虫过程：源文件： 1. bookid_bookname_zz.txt，存储为dict类型bookNmaes。 2. url_root为亚马逊某本书的搜索界面。程序: 1.使用的第三方库： BeautifulSoup,Urllib2, selenium.webdriver, re 2. Webdriver的phantomJS可视化爬虫过程，进行调试。 3. 4. C

Python使用微信接入图灵机器人过程解析

09-18

这个过程涉及的主要知识点包括Python编程、微信API的使用以及图灵机器人的接口集成。首先，`wxpy`库是一个增强版的微信个人号机器人框架，它在`itchat`的基础上进行了优化，提供了更加友好的接口和丰富的功能。要...

python爬虫反爬怎么处理_python爬虫遇到字体反爬如何处理

weixin_39860849的博客

12-01

425

遇到字体反爬如何处理在爬虫中往往会碰到一些自定义字体的反爬，也就是在打开一个页面的时候，我们是可以看到对应的在页面是看的到的数据的，但是，通过检查发现在element中，我们是看不到真实的数据的，比如在猫眼电影中：第一种解决的思路，是切换到手机版，看一下手机版的页面我们是否可以直接拿到数据，在猫眼电影中，我们可以直接切换到手机页面之后是可以找到数据的：另外的一种解决方式就是可以使用selenium...

Python电商爬虫保姆级入门教程（纯新手向）

电商数据Girl的博客

07-24

606

发表于湖南原文：作者：VoidKing长沙图灵教育于2001年开始进入教育行业，立足泛IT类职业教育，以打造高新技术人才为宗旨，专注于提供多层次、个性化的职业技能培训课程，为各行业培养技术开发、应用和管理等岗位的中高端人才，致力于成为优质的职业教育内容提供商。2篇原创内容公众号。

Node.js-图灵社区样书爬虫

08-10

图灵社区样书爬虫

图灵里程碑论文1950原文

11-21

图灵1950年发表的里程碑意义的论文《Computing Machinery and Intelligence》，本文为英文原文。中文名称《计算机能思考吗》《计算机和智能》。这是十分经典的论文！值得看一看。

一线互联网大厂完整Java面试题.pdf

09-11

一线互联网大厂完整Java面试题，包括Java基础、算法、架构、设计原则和设计模式等题目

关于爬虫技术闲聊

程序猿开发日志【学习永无止境】

03-13

1940

本文全面的介绍了爬虫的原理、技术现状、以及目前仍面临的问题。如果你没接触过爬虫，本文很适合你，如果你是一名资深的虫师，那么文末的彩蛋你可能感兴趣。需求万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多时候，无论出于数据分析或产品需求，我们需要从某些网站，提取出我们感兴趣、有价值的内容，但是纵然是进化到21世纪的人类，依然只有两只手，一双眼，不可能去每一个网页去点去

如何在网络爬虫中解决CAPTCHA？使用Python进行网络爬虫