2018年11月_科研小王v

11月 09月

原创 Python爬虫实现百度贴吧文本爬取【每天近千万级数据量】

一、概述      我先澄清一下，我并不是单纯的为了爬数据而爬数据，这其实是为了之后的语音识别的语言模型训练积累数据的，所以我就实现了一个这样的爬虫，它可以不断的爬取各个指定贴吧的帖子文本内容，并把它存入MongoDB，而且可以自己根据电脑的配置和MongoDB的极限指定允许并发的线程数，我在我的电脑上使用的是4个线程，已经可以达到每日...

2018-11-23 23:53:42 1831 5

原创【语音识别学习】未分词的2-gram语言模型统计Python实现(含源码)

概述&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;对于语音识别来说，大体上就分为三个方面，一个是声学模型(acoustical model)的训练，一个是语言模型(language model)的训练，最后就是对给定一段语音的解码了，当然，咱们今天讨论的是第二部分，其他的就先丢到一边吧！(在这给大家打一打气，其实语言模型是这三个方面里最复

2018-11-22 17:29:31 5348 2

原创【总结】几个简单语言模型平滑方法

首先说一下为什么要采用平滑操作：　因为在数据库统计词语的结果中，一定会出现大量的零（稀疏），从而导致识别的结果出现错误，比如在你的语料库中没有＇他＇这个字，统计概率就为０，但你不能因为这个的概率为０，就把所有的带’他’的句子统计为概率是０，这是不合理的，所以要对所统计的结果进行平滑操作，避免统计结果稀疏。Laplace平滑　这是平滑方法中最为简单粗暴的一个方法，原理就是让每个统计的频数至少为...

2018-11-17 23:06:36 3551

可用于保研联系的机试练习题整理.zip

这是博主当时自己保研时所用的机试联系题，可以作为一个机试的参考吧，博主自己已于2019年保研中保到了清华大学计算机系，详情可参见博客https://blog.csdn.net/m0_38055352/article/details/102887818

2020-05-05

拼音汉字对照表

拼音汉字对照表，格式已整理好，可直接应用于自然语言处理。(经过实践检验可以使用)

2018-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人