爬虫爬评书吧_历史故事爬虫

很多朋友都会喜欢历史,这种喜欢不仅来自打小背过的一些成语的熏陶,还有成长路上听过的各种历史大人物的光辉传记。你看高考作文议论文中多少论据都是这些历史故事。历史是多点并发的,然后每个人物都是一条主线,所以要想了解历史全貌需要耗费大量精力时间,平时节奏这么繁忙,有没有好的方式去扩充这些知识呢?对,听广播。

广播分为好多种,有单田芳老先生的评书那类,属于讲故事的,偶尔坐出租车的时候看有一些师傅在听;也有一些娱乐电台,音乐的八卦的,比如hitfm、城市之声之类;还有一些网友自制的,也很有趣,比如荔枝FM、喜马拉雅上种种,有讲旅游的、讲感情的、讲吃喝的;还有一些国外的讲故事的,比如BBC的广播剧,这个不展开感兴趣自查。适合长期英语学习的电视、电台、Podcast 节目的有哪些?​www.zhihu.com

对比BBC的故事和中国评书的故事差别是音效上,BBC这类drama环境音效做的很棒——不同场景混响不同、街道、教堂、闹市、课堂,音效模拟的很逼真,但国内相声、故事一般来说都是单口群口为主。扯远了。。回来

学点历史好处不言而喻,可以作为谈资素材攒点,可以面对选择的时候以史为鉴,知道历史兴衰成败故事多了,在做选择的时候也会要求自己谨小慎微多方考虑。

在这么个前提下,我在喜马拉雅听到了一套历史故事集作者叫做大宇茶馆。

你看这个专辑里,秦朝、宋、元、明、隋唐都有。因此它覆盖中国历史面相对全。

而且每张专辑一讲就是从这个朝代刚开始农民起义造反,到革命成功新王朝兴盛,再到子孙昏庸从而一朝衰败。一套全套的故事,故事中除了皇帝外,文臣武将那也是一个个小主线从头讲到尾,谁谁谁怎么起的家,怎么当的官,怎么建的业,怎么竖的敌,怎么被搞掉。在大宇精神明亮的声音念白中就这么唰唰唰的翻篇讲着。有趣!有料!

此外这套故事中点开可以看到更绝的一幕——每一个独立的音频题目都是一个成语典故啊!这就好比小时候背的一堆成语现在再听故事加深理解。你听了有用,你还能将给未来的孩子哇哈哈哈。

所以我决定搞事情——爬下来,这次爬虫练习只是想爬取这些成语标题+链接,并不想抓取背后的音频文件(因为这个播放列表本就是免费的,其实在APP听就挺好的)。然后爬取的链接生成一个csv文件,以后想听了随时随地可以定位到具体章节。

思路1——抓红框中的名字+背后的超级链接

检查网页

在网页端element下有名字及href,因此尝试直接抓取:

得到的答案是:200,意味着——有响应,但是没有内容。

补充思路2——尝试用XHR的方法,即:Network-XHR-Headers中看数据请求链接,和在preview中查看结构再层层抓取。查看请求观察结构

观察结构后,撰写代码如下:

可是呢,爬出来仍然为空,代码错误是:11行json不对,但是我确定json语句是这么写的,那错误在哪儿那?

经过仔细检查发现是因为喜马拉雅拒绝python爬的,因此需要做一个Headers的加载。以下是一个伪装的headers

headers={

'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3578.98 Safari/527.36'

}

当这些都解决了后,完成了该页面的抓取:

这个播放列表300多集,主播大宇的工作也不容易呀。

后续

抓这个列表有什么作用呢?

喜马拉雅是能收藏的,但是收藏完了后在APP翻也是需要时间的,而且经常分心,因此下次看到完结的,不错的,可以抓取下来存好了。按系列听起来。不怕广告及其他分神。

看过《人类简史》可以知道书中的主旨——人类喜欢故事,特别是传说啊历史啊这些,所以爬虫这件事只是练手学习的过程,但是听故事才是主要目的,也推荐你去听这个系列。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值