【人工智能】正经说-自然语言处理（2）

最新推荐文章于 2024-09-10 20:02:33 发布

JDJRdata

最新推荐文章于 2024-09-10 20:02:33 发布

阅读量1k

点赞数 1

分类专栏：人工智能文章标签：大数据 HMM 人工智能分词 NLP

本文链接：https://blog.csdn.net/JDJRdata/article/details/73201240

版权

前言

大家猴啊！又到了两周一次正正经经地学知识的时间了，很期待吧！上一篇文章发表之后，发生了一些让正某人很开心的事情，在微信里有几位和IT几乎没半毛钱关系的朋友，跟我说居然全都看懂了，表示要继续跟下去。这让我很欣慰啊，多储备一些知识总是好的，以后你们可以很自豪的喊出来“处处不留爷，老子写代码！”，多押韵啊…不过程序员也是有点儿门槛的。从这节课开始，是时候展示真正的技术了。

分词

上节课我们说过，这节课主要讲的是分词。但豪不夸张的说，分词这个事儿一两百字足矣说明它是什么、为什么、怎么用。写到这儿我停下来思考了良久，要不要绕过这里，或者一笔带过，重点换成LDA等一系列的硬点的菜。对于分词很多初出茅庐的人都会觉得这事情比较“low”，没啥可研究的，一走一过儿顺便就处理了，是比较基础的。还有一部分实干派，会觉得现在市场上有那么多分词系统，大多数都是免费的，随便找一个顺手的用就好了。确实，再造轮子这种事儿是不划算的。很多老牌儿分词系统如jieba，IKAnalyzer，ansj现在都已经深入人心；另外还有很多“青流”的加入，搜狗分词，腾讯文智，新浪云，哈工大语言云都是出场率比较高的分词系统，既然这么多大厂都在做，可见上述两种言论的人（包括我）对分词的理解也是管中窥豹。

网上过半数的关于分词的文章都是在拿这些分词系统作比较，分析效率，对比各行业数据的分词准确度，这些可能后面我们都会涉及到，落实到具体的代码上，手把手教你找到一个适合你的分词系统！现在就不多叙述了。那我们要讲什么呢？我们先来讲一下分词的现状吧！

字典分词

图1 字典分词的分词树

Long long ago…有一种原汁原味的分词方法：字典分词法。该方法简单暴力，完全依赖于你给的字典，想怎么分都在你一手掌控，并且效率奇高。后来人们渐渐地发现，这东西局限性太大了，字典未收录的词切不出来不说，还存在严重的歧义（如图1），需要不断地更新完善字典，在增加了优先长词，引入词频统计之后，还是不足以满足我们需求。不知道你们用没用过，反正我是用过，不得不说对仅限于某一个专业的领域来说这东西还是挺好用的，尤其是处理一些专业术语较多、变数较少的文章。