爬虫生活实录之---百度文库文档破解

最新推荐文章于 2024-05-07 02:25:17 发布

誓约·追光者

最新推荐文章于 2024-05-07 02:25:17 发布

阅读量9.5k

点赞数 2

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38284543/article/details/73274212

版权

帮同学找考试相关资料的时候瞄上了百度文库（百度文库找期末考的试卷确实特别方便），不想出钱又不想下冰点，复制粘贴还嫌累，灵机一动想用爬虫来解决这个问题。2333我凭本事爬的文档为什么要给钱

目标：搞定百度文库中的付费文档的文字部分内容（图片暂未处理处于无法显示的状态，以后遇到需要解决图片格式的时候再优化程序）
步骤：
1.找到你想下载的文档，打开，在网址wenku前加wap，enter跳转页面之后可以在左上方看到有多少页。记住页数和复制网址，待会儿会用上这两个量
2.你需要有Python环境而且会安装包。本程序需要安装requests，BeautifulSoup，lxml三个包，前两个可以直接pip安装，最后一个建议从官网下载，下载教程在前一篇里有http://blog.csdn.net/qq_38284543/article/details/72964440
3.程序思路：首先，直接打开百度文库是不能爬取文档的，因为源代码里设置了Vip验证。但是百度文库有一个特性，就是手机端下载文档是免费的。于是在网页地址前加入wap使网页端跳转到手机端，此时的源代码就包含了文档中的所有文字内容，根据文档页数决定爬取多少页就能完美打印出文字内容。我看了不少不同类型的百度文库的文档，对正文的标注都是class="content bgcolor1"，因此我大胆猜测所有文档其实都是用这个标签来定义的。
4.上范例代码：
import requests

最低0.47元/天解锁文章

誓约·追光者

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
4
评论
爬虫生活实录之---百度文库文档破解

帮同学找考试相关资料的时候瞄上了百度文库（百度文库找期末考的试卷确实特别方便），不想出钱又不想下冰点，复制粘贴还嫌累，灵机一动想用爬虫来解决这个问题。2333我凭本事爬的文档为什么要给钱目标：搞定百度文库中的付费文档的文字部分内容（图片暂未处理处于无法显示的状态，以后遇到需要解决图片格式的时候再优化程序）步骤：1.找到你想下载的文档，打开，在网址wenku前加wap，enter跳转页面
复制链接

扫一扫

誓约·追光者 CSDN认证博客专家 CSDN认证企业博客

码龄7年

10: 原创

19万+: 周排名

180万+: 总排名

2万+: 访问

: 等级

382: 积分

13: 粉丝

10: 获赞

5: 评论

59: 收藏

私信

关注

热门文章

分类专栏

最新评论

selenium中文文档
诗爻: 等待js渲染完成怎么使用呢……为什么get-source的网页源代码和检查元素的代码不一样呢（检查元素是具体渲染完的数据）、而get-source得到的代码原本该出现具体数值的地方仍旧是一段代码
爬虫生活实录之---百度文库文档破解
虎啸龙吟1111: 这个被封了
爬虫生活实录之---百度文库文档破解
普通网友: 百度文库代下载网站：https://baidu3888.com，这个好用
爬虫生活实录之---百度文库文档破解
光光不光: 要下载卷的
爬虫生活实录之---百度文库文档破解
TongXiPeng: 请问这个程序需要安装哪些包和库？新手求教

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。