ML/NLP
文章平均质量分 92
DanielWang_
对开源、NLP、网络编程等领域感兴趣 共同学习~~ best wishes
展开
-
jieba中文分词源码分析(一)
一、缘由接触自然语言处理(NLP)有段时间,理论知识有些了解,挺想动手写些东西,想想开源界关于NLP的东西肯定不少,其中分词是NLP的基础,遂在网上找了些资源,其中结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github: 源码地址 ,代码用python实现,源码中也有注释,但一些细节并没有相应文档,因此这里打算对源码进行分析,一来把知识分享,让更多的童鞋更快的对源码有个原创 2015-09-03 16:11:29 · 19853 阅读 · 4 评论 -
jieba中文分词源码分析(三)
一、前缀字典作者这个版本(0.37)中使用前缀字典实现了词库的存储(即dict.txt文件中的内容),而弃用之前版本的trie树存储词库,python中实现的trie树是基于dict类型的数据结构而且dict中又嵌套dict 类型,这样嵌套很深,导致内存耗费严重,具体点这里,下面是@gumblex commit的内容: 对于get_DAG()函数来说,用Trie数据结构,特别是在Python环原创 2015-09-05 17:15:17 · 11402 阅读 · 1 评论 -
中文分词 mmseg nginx 模块开发
一、nginx模块开发Nginx 是一款高性能web服务器,因此,工作业务中需要借助nginx强大的网络服务功能,往往需要开发和定制相应的 Nginx 模块满足业务需求。 基本上作为第三方开发者最可能开发的就是三种类型的模块,即handler,filter和load-balancer。Handler模块就是接受来自客户端的请求并产生输出的模块,也是我们使用最多的一个模块。有关nginx模块开发的原创 2016-01-17 13:55:12 · 4074 阅读 · 0 评论 -
jieba中文分词源码分析(二)
一、jieba的使用举例jieba的简单使用 我们根据作者的 github的例子来编写一个自己的例子,代码如下:# encoding=utf-8import jiebaseg_list = jieba.cut("去北京大学玩123", cut_all=True)print("Full Mode: " + "/".join(seg_list)) # 全模式seg_list = jieba.原创 2015-09-05 20:53:40 · 8751 阅读 · 1 评论 -
jieba中文分词源码分析(四)
一、未登录词问题在jieba中文分词的第一节曾提到未登录词问题 中文分词的难点 分词规范,词的定义还不明确 (《统计自然语言处理》宗成庆) 歧义切分问题,交集型切分问题,多义组合型切分歧义等 结婚的和尚未结婚的 => 结婚/的/和/尚未/结婚/的 结婚/的/和尚/未/结婚/的 未登录词问题 有两种解释:一是已有的词表中没有收录的词,二是已有的训练语料原创 2015-09-06 19:21:28 · 12671 阅读 · 2 评论 -
mmseg分词算法及实现
一、分词方法关于中文分词 参考之前写的jieba分词源码分析 jieba中文分词。 中文分词算法大概分为两大类:一是基于字符串匹配,即扫描字符串,使用如正向/逆向最大匹配,最小切分等策略(俗称基于词典的) 基于词典的分词算法比较常见,比如正向/逆向最大匹配,最小切分(使一句话中的词语数量最少)等。具体使用的时候,通常是多种算法合用,或者一种为主、多种为辅,同时还会加入词性、词频等属性来辅助处理原创 2016-01-10 20:07:59 · 12274 阅读 · 4 评论