![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 66
Tao-Tao-Tao
这个作者很懒,什么都没留下…
展开
-
数据压缩与信息熵
Notes:本文目前大部分内容来源于:[http://www.ruanyifeng.com/blog/2014/09/information-entropy.html]。 之后将增加互信息,左右信息熵等内容 1992年,美国佐治亚州的WEB Technology公司,宣布做出了重大的技术突破。 该公司的DataFiles/16软件,号称可以将任意大于64KB的文件,压缩为原始大小的16分之一原创 2018-01-14 17:52:42 · 444 阅读 · 0 评论 -
新词发现
挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。这似乎陷入了一个怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没有新词,我们又怎么能信任分词结果呢?此时,一种大胆的想法是,首先不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较,不就能找出新词了吗...转载 2018-02-26 22:47:31 · 3011 阅读 · 0 评论 -
规则学习
规则 1. 基本概念 ⊕←f1∧f2⋯fL⊕←f1∧f2⋯fL\oplus\leftarrow f_1\wedge f_2\cdots f_L ⊕⊕\oplus: 规则头 f1∧f2⋯fLf1∧f2⋯fLf_1\wedge f_2\cdots f_L: 规则体 (合取式) 一条规则是一个子模型,规则及是这些子模型的集合 1.1规则冲突 冲突消解的手段 投票法 排序法 元规则法 ...原创 2018-03-17 19:35:31 · 1516 阅读 · 0 评论 -
机器学习术语表
A accuracy (准确率) 分类模型预测准确的比例。在多类别分类中,准确率定义如下: accuracy=correctpredictionstotalnumberofexamplesaccuracy=correctpredictionstotalnumberofexamplesaccuracy =\frac{correct predictions}{total number of ...转载 2018-03-14 08:19:51 · 473 阅读 · 0 评论 -
达观数据自然语言处理框架
达观数据自然语言处理框架转载 2018-03-24 22:21:37 · 677 阅读 · 0 评论