2014年07月_人生偌只如初见

12月 11月 10月 09月 08月 07月 06月 05月

转载数据挖掘笔记-特征选择-互信息

互信息（Mutual Information）是一有用的信息度量，它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为：又可以表示成：其中H(X,Y)是联合熵（Joint Entropy），其定义为：H(X|Y)是条件熵（conditional entropy）；x,y互信息与多元对数似然比检验以及皮尔森χ2校验有着密切的联系。在

2014-07-30 18:28:05 6515 1

转载数据挖掘笔记-分类-支持向量机SVM-1

SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy

2014-07-18 13:17:23 2080

原创数据挖掘笔记-特征选择-算法实现-1

代码托管:https://github.com/fighting-one-piece/repository-datamining.git。关于特征选择相关的知识可以参考一下连接。

2014-07-17 18:32:07 12624 8

转载数据挖掘笔记-特征选择-信息增益

除了开方检验（CHI）以外，信息增益（IG，Information Gain）也是很有效的特征选择方法。但凡是特征选择，总是在将特征的重要程度量化之后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化，关联性越强，特征得分越高，该特征越应该被保留。在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多

2014-07-17 15:49:41 4767

转载数据挖掘笔记-特征选择-开方检验

除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得，开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。（什么？你是文史类专业的学生，没有学过数理统计？那你做什么文本分类？在这捣什么乱？）

2014-07-17 15:44:55 3196

原创数据挖掘笔记-寻找相似文章-Python

原理在http://blog.csdn.net/fighting_one_piece/article/details/36658323

2014-07-17 15:01:44 1550

原创 Oozie学习笔记-安装部署与运行实例

Oozie安装部署1.oozie包的下载 3.0.*版本或者之前的版本是可以离线安装的(例如oozie-3.0.2-distro.tar.gz)，在往上的版本(例如 oozie-3.3.2-distro.tar.gz和oozie-4.0.0-distro.tar.gz等)都是在线安装的版本，需要用到MAVEN工具，在安装过程中可能会碰到依赖问题，可以修改相关的POM文件。 2.

2014-07-13 14:42:43 3014

原创 Hive学习笔记-API简单操作

两种方式连接到Hive对其进行操作1、通用的JDBC2、Thrift

2014-07-10 11:10:57 2702

原创 HBase学习笔记-API简单操作

public abstract class AbstrUtils {protected static Logger logger = Logger.getLogger(AbstrUtils.class);protected static Configuration configuration = null;/** 初始化配置 **/static {System.se

2014-07-10 10:42:30 2271

原创 Hive学习笔记-分隔符处理

hive默认是只支持单字符的分隔符，默认单字符是/u0001。你也可以在创建表格时指定数据的分割符号。如create table user(name string,password string) row format delimited fields terminated by '/t'。通过这种方式，完成分隔符的指定。如果你想要支持多字符的分隔符可以通过如下方式：1、自

2014-07-09 21:17:44 8451 1

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果

2014-07-03 15:04:40 2395