PURSUE ONE PIECE

学历代表过去,财力代表现在,学习力代表将来,所见所闻改变一生,不知不觉断送一生。...

数据挖掘笔记-特征选择-互信息

互信息(Mutual Information)是一有用的信息度量,它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为: 又可以表示成: 其中H(X,Y)是联合熵(Joint Entropy),其定义为: H(X|Y)是条件熵(conditional ...

2014-07-30 18:28:05

阅读数 4515

评论数 1

HBase学习笔记-统计表行数

统计表行数的方式如下:

2014-07-22 17:18:14

阅读数 8061

评论数 0

数据挖掘笔记-分类-支持向量机SVM-1

SVM的简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。  支持向量机方法是建立在统计学习理论的VC 维理论和结...

2014-07-18 13:17:23

阅读数 1546

评论数 0

数据挖掘笔记-特征选择-算法实现-1

关于特征选择相关的知识可以参考

2014-07-17 18:32:07

阅读数 8574

评论数 8

数据挖掘笔记-特征选择-信息增益

除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越...

2014-07-17 15:49:41

阅读数 2867

评论数 0

数据挖掘笔记-特征选择-开方检验

除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变...

2014-07-17 15:44:55

阅读数 2509

评论数 0

数据挖掘笔记-寻找相似文章-Python

原理在http://blog.csdn.net/fighting_one_piece/article/details/36658323

2014-07-17 15:01:44

阅读数 1253

评论数 0

Oozie学习笔记-安装部署与运行实例

Oozie安装部署 1.oozie包的下载  3.0.*版本或者之前的版本是可以离线安装的(例如oozie-3.0.2-distro.tar.gz),在往上的版本(例如  oozie-3.3.2-distro.tar.gz和oozie-4.0.0-distro.tar.gz等)都是在线安...

2014-07-13 14:42:43

阅读数 2615

评论数 0

Hive学习笔记-API简单操作

两种方式连接到Hive对其进行操作 1、通用的JDBC 2、Thrift

2014-07-10 11:10:57

阅读数 2283

评论数 0

HBase学习笔记-API简单操作

public abstract class AbstrUtils { protected static Logger logger = Logger.getLogger(AbstrUtils.class); protected static Configuration configuratio...

2014-07-10 10:42:30

阅读数 1834

评论数 0

Hive学习笔记-分隔符处理

hive默认是只支持单字符的分隔符,默认单字符是/u0001。你也可以在创建表格时指定数据的分割符号。如 create table user(name string,password string) row format delimited fields terminated by '/t'...

2014-07-09 21:17:44

阅读数 6888

评论数 1

数据挖掘笔记-寻找相似文章-Java

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会...

2014-07-03 15:04:40

阅读数 1601

评论数 0

提示
确定要删除当前文章?
取消 删除