中分分词
文章平均质量分 53
阿满子
AI in Finance
展开
-
几款第三方分词工具
清华大学:THULAC[THULAC](http://thulac.thunlp.org/),是由清华大学自然语言处理与社会人文计算实验室(该实验室带头人:孙茂松、刘知远、刘洋)研制推出的一套中文词法分析工具包。 安装了其C++版,对北京大学语料进行了分词,如果不选择词性分析的话,单纯分词,需0.5s,同时利用打分脚本进行评测:=== SUMMARY:=== TOTAL INSERTIONS:原创 2016-04-22 17:15:22 · 8257 阅读 · 0 评论 -
最短路径分词
最短路径分词的原理是:首先,对句子进行原子切分,然后根据大词典,构造一个有向无环图,俗称DAG(Directed Acyclic Graph),每个可能分词对应DAG的一条边,每条边有一定的权重。因此,分词问题转化成了求DAG中起点到终点的最短路径问题。 根据DAG边的权重特点,有两类分词方式: 一种是,基于规则的,假设所有边的权重都一样(据说是汉语最少词表达出来的句子最合理,但缺乏严谨依据),原创 2016-04-21 16:10:31 · 3775 阅读 · 0 评论 -
统计中文分词(最大熵)
在机器学习中,序列标注(Sequence labeling)是一种常见的模式识别任务,它用来给一组可观察对象打上状态(类别)标签。它可以解决NLP中的分词(Word Segement)、词性标注(Part-Of-Speech Tagging)、命名实体识别(Named Entity Recognition )等问题。常见的统计算法模型有:HMM、MEMM、CRF。 下面介绍利用最大熵统计算法进行分原创 2016-04-08 09:31:05 · 3749 阅读 · 0 评论 -
统计中分分词(CRF)
下面利用条件随机场的统计分词算法。第一步:工具包准备利用CRF++工具包,下载编译安装。同时,在其python目录下执行python包安装。第二步:语料准备还是利用backoff2005的熟语料进行加工,成为CRF++需要的语料格式,如: “ S 人 B 们 E 常 S 说 S 生 B 活 E 是 S 一 S 部 S ” 这里加工北京大学提供的训练语料(icwb2-data\原创 2016-04-21 14:37:16 · 1699 阅读 · 0 评论 -
中文词库
开源中文词库THUOCL:清华大学开放中文词库原创 2017-08-08 08:41:42 · 4212 阅读 · 0 评论