【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析
前几天在写报告的时候,需要引用些BD文库里的文章,但不是会员是不可以下载的。因此,萌生了研究研究它的网页是怎么显示的想法。懂得小伙伴请往下看!
已这个文档为例
-
F12 调出工具
首先我们先看下,它的文字内容的位置
直接访问这个地址试试看,结果是可以的。然而,发现他是一个json文件被封装在了wenku_1()的里面,这个OK,用正则可以提取出json。另外,这个文档共有5页,也就是有5个 0.json?的链接,里面分别有wenku_1()、wenku_2()、wenku_3()、wenku_4()、wenku_5()。那么,这5个json就可以组成了文章文字的全部。
OK!我们基本可以总结下路线:按顺序访问0.json的链接------>利用正则,转换为json,
定位body[ n ][ c ],看到里面的文字------->按照顺序把排列好------->最后,保存到txt文件,就是一篇完整的文章???但是,最后的txt文件是没有格式的,还需要自己调整换行、结构等。
(特别说明下,涉及的版权问题不建议大家用爬虫的方式去得到文章,本文也不会给出代码,只是作为一个web页面分析,思路练习。而且,这个方法也是很不成熟,需要找到所有的0.json的链接,遇到上百页的就很头痛!)
欢迎兄弟们,帮我补充,一起学习,找到更好的方法!!
往期文章链接:
[ 自嗨笔记#1] 微博疫情舆情分析—爬取部分
[ 自嗨笔记#2] 微博疫情舆情分析—舆情分析部分
[ 自嗨笔记#3] 后浪 评论分析