2020 年的第一天,给大家分享如何用 Python 抓取新闻联播语料库。
语料库是什么?
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
为什么是新闻联播?
新闻联播是最权威的新闻来源,用语规范,内容涉及时政和社会的方方面面,对生活生产有着很强的指导意义。
怎么获取新闻联播语料库?
在 Tushare Pro 数据开放平台有新闻联播文本的接口,可以直接调用获取。或者像我这样,直接自己写代码获取就好了~
版权&免责声明:该语料库收集自网络公开信息,版权归原作者所有,本人出于科研学习交流的目的进行分享,仅用于 NLP 或其他学习用途,传播后造成任何违规不当使用,责任自负。若有侵权,请后台给我留言。
数据抓取方法仅为技术理论可行性研究,并不鼓励任何人进行真实抓取。
首先分享资源吧~我已经整理好了 2019 年全年的文字稿:
https://pan.baidu.com/s/1sN6YXjVeJBNf_2OPMkTpLQ 提取码: 2438
然后我们来分享一下代码的实现思路:首先确定数据来源。