自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Johnson的博客

一个程序员的学习之路

  • 博客(3)
  • 资源 (2)
  • 收藏
  • 关注

原创 Python爬虫实现百度贴吧文本爬取【每天近千万级数据量】

一、概述      我先澄清一下,我并不是单纯的为了爬数据而爬数据,这其实是为了之后的语音识别的语言模型训练积累数据的,所以我就实现了一个这样的爬虫,它可以不断的爬取各个指定贴吧的帖子文本内容,并把它存入MongoDB,而且可以自己根据电脑的配置和MongoDB的极限指定允许并发的线程数,我在我的电脑上使用的是4个线程,已经可以达到每日...

2018-11-23 23:53:42 1831 5

原创 【语音识别学习】未分词的2-gram语言模型统计Python实现(含源码)

概述      对于语音识别来说,大体上就分为三个方面,一个是声学模型(acoustical model)的训练,一个是语言模型(language model)的训练,最后就是对给定一段语音的解码了,当然,咱们今天讨论的是第二部分,其他的就先丢到一边吧!(在这给大家打一打气,其实语言模型是这三个方面里最复

2018-11-22 17:29:31 5348 2

原创 【总结】几个简单语言模型平滑方法

首先说一下为什么要采用平滑操作: 因为在数据库统计词语的结果中,一定会出现大量的零(稀疏),从而导致识别的结果出现错误,比如在你的语料库中没有'他'这个字,统计概率就为0,但你不能因为这个的概率为0,就把所有的带’他’的句子统计为概率是0,这是不合理的,所以要对所统计的结果进行平滑操作,避免统计结果稀疏。Laplace平滑 这是平滑方法中最为简单粗暴的一个方法,原理就是让每个统计的频数至少为...

2018-11-17 23:06:36 3551

可用于保研联系的机试练习题整理.zip

这是博主当时自己保研时所用的机试联系题,可以作为一个机试的参考吧,博主自己已于2019年保研中保到了清华大学计算机系,详情可参见博客https://blog.csdn.net/m0_38055352/article/details/102887818

2020-05-05

拼音汉字对照表

拼音汉字对照表,格式已整理好,可直接应用于自然语言处理。(经过实践检验可以使用)

2018-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除