【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析

【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析

前几天在写报告的时候,需要引用些BD文库里的文章,但不是会员是不可以下载的。因此,萌生了研究研究它的网页是怎么显示的想法。懂得小伙伴请往下看!
已这个文档为例
在这里插入图片描述

  • F12 调出工具
    首先我们先看下,它的文字内容的位置
    在这里插入图片描述
    直接访问这个地址试试看,结果是可以的。然而,发现他是一个json文件被封装在了wenku_1()的里面,这个OK,用正则可以提取出json。另外,这个文档共有5页,也就是有5个 0.json?的链接,里面分别有wenku_1()、wenku_2()、wenku_3()、wenku_4()、wenku_5()。那么,这5个json就可以组成了文章文字的全部。
    在这里插入图片描述
    OK!我们基本可以总结下路线:按顺序访问0.json的链接------>利用正则,转换为json,
    定位body[ n ][ c ],看到里面的文字------->按照顺序把排列好------->最后,保存到txt文件,就是一篇完整的文章???

    但是,最后的txt文件是没有格式的,还需要自己调整换行、结构等。

    (特别说明下,涉及的版权问题不建议大家用爬虫的方式去得到文章,本文也不会给出代码,只是作为一个web页面分析,思路练习。而且,这个方法也是很不成熟,需要找到所有的0.json的链接,遇到上百页的就很头痛!)
    欢迎兄弟们,帮我补充,一起学习,找到更好的方法!!

往期文章链接:
[ 自嗨笔记#1] 微博疫情舆情分析—爬取部分
[ 自嗨笔记#2] 微博疫情舆情分析—舆情分析部分
[ 自嗨笔记#3] 后浪 评论分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值