- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 Python爬虫实现百度贴吧文本爬取【每天近千万级数据量】
一、概述 我先澄清一下,我并不是单纯的为了爬数据而爬数据,这其实是为了之后的语音识别的语言模型训练积累数据的,所以我就实现了一个这样的爬虫,它可以不断的爬取各个指定贴吧的帖子文本内容,并把它存入MongoDB,而且可以自己根据电脑的配置和MongoDB的极限指定允许并发的线程数,我在我的电脑上使用的是4个线程,已经可以达到每日...
2018-11-23 23:53:42 1831 5
原创 【语音识别学习】未分词的2-gram语言模型统计Python实现(含源码)
概述      对于语音识别来说,大体上就分为三个方面,一个是声学模型(acoustical model)的训练,一个是语言模型(language model)的训练,最后就是对给定一段语音的解码了,当然,咱们今天讨论的是第二部分,其他的就先丢到一边吧!(在这给大家打一打气,其实语言模型是这三个方面里最复
2018-11-22 17:29:31 5348 2
原创 【总结】几个简单语言模型平滑方法
首先说一下为什么要采用平滑操作: 因为在数据库统计词语的结果中,一定会出现大量的零(稀疏),从而导致识别的结果出现错误,比如在你的语料库中没有'他'这个字,统计概率就为0,但你不能因为这个的概率为0,就把所有的带’他’的句子统计为概率是0,这是不合理的,所以要对所统计的结果进行平滑操作,避免统计结果稀疏。Laplace平滑 这是平滑方法中最为简单粗暴的一个方法,原理就是让每个统计的频数至少为...
2018-11-17 23:06:36 3551
可用于保研联系的机试练习题整理.zip
2020-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人