自然语言处理之中文语料收集

最新推荐文章于 2024-04-15 14:19:46 发布

Taylor George

最新推荐文章于 2024-04-15 14:19:46 发布

阅读量1.9k

点赞数 1

文章标签： python selenium 数据分析

本文链接：https://blog.csdn.net/qq_43350003/article/details/105278223

版权

自然语言处理语料的来源

众所周知，中文的语料非常稀少，因为中文不像英语那样只有26个字母组成一切，中文的汉字数不清楚，所以对于预料的整理就非常的繁琐和复杂。抛开现有的一些质量不好的中文语料不谈，我们可以想到一些已经整理的差不多的语料，只需要我们稍加处理就可以得到一个完美的语料。这个时候我就想到了字幕文件这个尚未被发现的巨大语料库，因为字幕的容易获取，而且处理起来比较简单，所以我选择了爬取字幕网站这一方式。

首先，选择一个字幕网站https://www.zimuku.la/我选择的是这个网站，大家也可以选择其他字幕网站。首先我们要先查看这个网站的网页结构，观察他的代码结构，发现我们想要的东西。下面来看一下网站首页：
在这里插入图片描述

我们观察后发现网站首页就有字幕的链接存在，我们再观察网页底部：

在这里插入图片描述
我们看到网页底部有页码，总共1500条字幕信息，一共50页。经过测试后发现，每一页的链接就是数字的变换，如：
http://www.zimuku.la/newsubs?&p=1这是第一页，http://www.zimuku.la/newsubs?&p=2这是第二页。
所以这就确定了我们的爬取链接。

接下来我们就可以查看第一页的网页源代码了：
在这里插入图片描述
划红线部分的detail后面的部分就是我们要找的每一条字幕的链接，只要在它的前面加上http://www.zimuku.la/即可对其进行访问。

接下去，我们对其访问到的网页进行分析：
在这里插入图片描述
可以看到绿色的按钮下载字幕是我们要找的，我们要将他的链接找到，同样查看其网页源代码：

在源代码中我们找到了这个下载链接，所有的链接我们都已经找到，接下来我们要做的就是具体的代码实现了。我们要用到的东西会有正则表达式，selenium，request等python库。

最低0.47元/天解锁文章