【人工智能】正经说-自然语言处理(2)


前言

大家猴啊!又到了两周一次正正经经地学知识的时间了,很期待吧!上一篇文章发表之后,发生了一些让正某人很开心的事情,在微信里有几位和IT几乎没半毛钱关系的朋友,跟我说居然全都看懂了,表示要继续跟下去。这让我很欣慰啊,多储备一些知识总是好的,以后你们可以很自豪的喊出来“处处不留爷,老子写代码!”,多押韵啊不过程序员也是有点儿门槛的。从这节课开始,是时候展示真正的技术了。

分词

上节课我们说过,这节课主要讲的是分词。但豪不夸张的说,分词这个事儿一两百字足矣说明它是什么、为什么、怎么用。写到这儿我停下来思考了良久,要不要绕过这里,或者一笔带过,重点换成LDA等一系列的硬点的菜。对于分词很多初出茅庐的人都会觉得这事情比较“low”,没啥可研究的,一走一过儿顺便就处理了,是比较基础的。还有一部分实干派,会觉得现在市场上有那么多分词系统,大多数都是免费的,随便找一个顺手的用就好了。确实,再造轮子这种事儿是不划算的。很多老牌儿分词系统如jieba,IKAnalyzer,ansj现在都已经深入人心;另外还有很多“青流”的加入,搜狗分词,腾讯文智,新浪云,哈工大语言云都是出场率比较高的分词系统,既然这么多大厂都在做,可见上述两种言论的人(包括我)对分词的理解也是管中窥豹。

网上过半数的关于分词的文章都是在拿这些分词系统作比较,分析效率,对比各行业数据的分词准确度,这些可能后面我们都会涉及到,落实到具体的代码上,手把手教你找到一个适合你的分词系统!现在就不多叙述了。那我们要讲什么呢?我们先来讲一下分词的现状吧!

字典分词


1 字典分词的分词树

Long long ago有一种原汁原味的分词方法:字典分词法。该方法简单暴力,完全依赖于你给的字典,想怎么分都在你一手掌控,并且效率奇高。后来人们渐渐地发现,这东西局限性太大了,字典未收录的词切不出来不说,还存在严重的歧义(如图1),需要不断地更新完善字典,在增加了优先长词,引入词频统计之后,还是不足以满足我们需求。不知道你们用没用过,反正我是用过,不得不说对仅限于某一个专业的领域来说这东西还是挺好用的,尤其是处理一些专业术语较多、变数较少的文章。

隐马尔科夫模型

经过业内大神的不断努力,分词的方法通过不断的进化终于趋于稳定和完善。这里值得重点讲的是隐马尔科夫模型了(Hidden Markov Model,以下简称HMM)。HMM作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值