机器学习
tong_xin2010
这个作者很懒,什么都没留下…
展开
-
【Machine Learning in Action】Chap1|Classification|kNN
Comprehension of Listing 2.1原创 2017-10-13 10:18:05 · 256 阅读 · 0 评论 -
[线性代数]遗留问题
矩阵的求导:ML in action的regression那章原创 2017-11-12 22:44:14 · 253 阅读 · 0 评论 -
PCFG构造语法结构树相关问题思考
【目录】如何从语料库提取PCFG(概率上下文无关)规则? 提取的规则存在什么数据结构中更好? 提取的规则为什么要转化为Chomsky Norm Form(CNF)? 提取的PCFG规则如何转化为CNF? 任意PCFG规则真的能像CFG一样转换为CNF吗? 如何根据符合CNF的规则生成新句子的结构树?关于这些问题,如果大家知道有已经成熟的结论和推导过程,希望能留言告诉作者,帮助作...原创 2018-08-05 19:04:04 · 1065 阅读 · 0 评论 -
【宾州中文树库CTB】分词手册导读《The Segmentation Guidelines for the Penn Chinese TreeBank(3.0)》
说明:宾州中文树库分词手册下载地址https://download.csdn.net/download/tong_xin2010/10576849 Chap1:Introduction本文是Penn Chinese Treebank Project中的一篇文档。这个文档目标是对100-thousand的普通话材料进行句法结构分析(syntactic bracketing)。标注(ann...翻译 2018-08-01 11:59:17 · 2523 阅读 · 0 评论 -
论文导读《Chinese Word Segmentation as Character Tagging》--Nianwen Xue
【摘要】本文展示了一种基于监督学习的中文分词算法。算法在人工标注数据上训练了一个最大熵标注器(maximum entropy tagger),用于对新句子中的每一个汉字进行位置标注(LL,LR,MM,RR)。然后将标注后的新句子转换为分词结果,进行评价。初步实验显示,本算法相对其他基于监督学习的算法也是很有竞争力的,基于237K-word的训练样本,取得了95.01%的precis...翻译 2018-08-15 11:46:33 · 956 阅读 · 0 评论 -
【宾州中文树库CTB】数据读取
CTB8.0 共有如下类型文件: Newswire: [0001-0325, 0400-0454, 0500-0540, 0600-0885, 0900-0931, 4000-4050]——后缀.nw.raw Magazine articles: [0590-0596, 1001-1151]——后缀.mz.raw Broadcast news:[2000-3145, 4051...原创 2018-11-14 18:52:12 · 2709 阅读 · 1 评论