【自嗨笔记#4】几乎大多数人都会需要的功能！学会它生产力提高200% ！百度文库付费文章网页分析

Schoolchild_L

于 2020-06-04 17:52:48 发布

阅读量377

点赞数

文章标签： json python 经验分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Schoolchild_L/article/details/106547984

版权

【自嗨笔记#4】几乎大多数人都会需要的功能！学会它生产力提高200% ！百度文库付费文章网页分析

前几天在写报告的时候，需要引用些BD文库里的文章，但不是会员是不可以下载的。因此，萌生了研究研究它的网页是怎么显示的想法。懂得小伙伴请往下看！
已这个文档为例
在这里插入图片描述

F12 调出工具
首先我们先看下，它的文字内容的位置

直接访问这个地址试试看，结果是可以的。然而，发现他是一个json文件被封装在了wenku_1（）的里面，这个OK，用正则可以提取出json。另外，这个文档共有5页，也就是有5个 0.json？的链接，里面分别有wenku_1（）、wenku_2（）、wenku_3（）、wenku_4（）、wenku_5（）。那么，这5个json就可以组成了文章文字的全部。

OK！我们基本可以总结下路线：按顺序访问0.json的链接------>利用正则,转换为json,
定位body[ n ][ c ],看到里面的文字------->按照顺序把排列好------->最后,保存到txt文件,就是一篇完整的文章？？？

但是,最后的txt文件是没有格式的，还需要自己调整换行、结构等。

(特别说明下，涉及的版权问题不建议大家用爬虫的方式去得到文章，本文也不会给出代码，只是作为一个web页面分析，思路练习。而且，这个方法也是很不成熟，需要找到所有的0.json的链接，遇到上百页的就很头痛！)
欢迎兄弟们，帮我补充，一起学习，找到更好的方法！！

往期文章链接：
[ 自嗨笔记#1] 微博疫情舆情分析—爬取部分
 [ 自嗨笔记#2] 微博疫情舆情分析—舆情分析部分
 [ 自嗨笔记#3] 后浪评论分析

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【自嗨笔记#4】几乎大多数人都会需要的功能！学会它生产力提高200% ！百度文库付费文章网页分析

【自嗨笔记#4】几乎大多数人都会需要的功能！学会它生产力提高200% ！百度文库付费文章网页分析前几天在写报告的时候，需要引用些BD文库里的文章，但不是会员是不可以下载的。因此，萌生了研究研究它的网页是怎么显示的想法。懂得小伙伴请往下看！已这个文档为例F12 调出工具首先我们先看下，它的文字内容的位置直接访问这个地址试试看，结果是可以的。然而，发现他是一个json文件被封装在了wenku_1（）的里面，这个OK，用正则可以提取出json。另外，这个文档共有5页，也就是有5个 0.json？
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。