2017年11月_1313123131312

转载特征选择方法之TF-IDF、DF

TF_IDF, DF都是通过简单的统计来选择特征，因此把它们放在一块介绍 1、TF-IDF 单词权重最为有效的实现方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。TF*IDF 的指导思想建立在这样一条基本假设之上: 在一个文本中出现很多次的单

2017-11-20 09:22:17 3247

转载皮尔逊相关系数的java实现

皮尔逊相关系数的java实现 2014-08-06 17:01:32分类： Java相关系数的值介于–1与+1之间，即–1≤r≤+1。其性质如下：当r>0时，表示两变量正相关，r当|r|=1时，表示两变量为完全线性相关，即为函数关系。当r=0时，表示两变量间无线性相关关系。当0且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表

2017-11-04 14:12:44 705

转载基于皮尔森相关系数的协同过滤算法

一、PearsonCorrelation 两个变量之间的相关系数越高，从一个变量去预测另一个变量的精确度就越高，这是因为相关系数越高，就意味着这两个变量的共变部分越多，所以从其中一个变量的变化就可越多地获知另一个变量的变化。如果两个变量之间的相关系数为1或-1，那么你完全可由变量X去获知变量Y的值。相关系数：考察两个事物（在数据里我们称之为变量）之间的相关程度

2017-11-04 12:32:42 1266

转载 JAVA实现基于皮尔逊相关系数的相似度计算

最近在看《集体智慧编程》，相比其他机器学习的书籍，这本书有许多案例，更贴近实际，而且也很适合我们这种准备学习machine learning的小白。这本书我觉得不足之处在于，里面没有对算法的公式作讲解，而是直接用代码去实现，所以给想具体了解该算法带来了不便，所以想写几篇文章来做具体的说明。以下是第一篇，对皮尔逊相关系数作讲解，并采用了自己比较熟悉的java语言做实现。

2017-11-04 11:07:25 2967

转载大数据JAVA实现基于皮尔逊相关系数的相似度

皮尔逊相关系数理解有两个角度 1. 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理)标准差则等于变量减掉平均数的平方和,再除以样本数,最后再开方. 所以, 根据这个最朴素的理解,我们可以将公式依次精简为:

2017-11-04 11:02:14 1811

转载皮尔逊相关度系数原理,以及java实现

1.原理:以上列出的四个公式等价，其中E是数学期望，cov表示协方差，N表示变量取值的个数。数学期望,协方差解释文章链接:http://blog.csdn.net/u010670689/article/details/41896399相关系数的值介于–1与+1之间，即–1≤r≤+1。其性质如下：当r>0时，表示两变量正相关，r负相关。当|

2017-11-04 10:47:03 762

转载 TreeSet判断重复元素

TreeSet的底层是TreeMap的keySet()，而TreeMap是基于红黑树实现的，红黑树是一种平衡二叉查找树，它能保证任何一个节点的左右子树的高度差不会超过较矮的那棵的一倍。TreeMap是按key排序的，所以TreeSet中的元素也是排好序的。显然元素在插入TreeSet时compareTo()方法要被调用，所以TreeSet中的元素要实现Comparable接口。TreeSe

2017-11-03 10:25:51 1282

转载 Java进行语义相似度分析

给定文本input.txt ，其中有750对英文句子，以" 句子1 + Tab + 句子2 +Enter "形式给出。现在要求用余弦向量法，求每对英文句子的相似度，并且输出到output.txt。完成上一个任务后，老师还会给出一个针对上述750对句子，人工给出的相似度评分文件standardAnalysis.txt，现在又要求利用Pearson相关系数法，分析out

2017-11-02 14:35:23 5108

转载语义相似度的计算方法

词语的语义相似度计算主要有两种方法：一类是通过语义词典，把有关词语的概念组织在一个树形的结构中来计算；另一类主要是通过词语上下文的信息，运用统计的方法进行求解。 1. 语义相似度Dekang Lin认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences)，然后从信息论的角度给出了定义公式：其中，分子

2017-11-02 10:41:07 8167

转载 50个常用sql语句网上流行的学生选课表的例子

50个常用sql语句 Student(S#,Sname,Sage,Ssex) 学生表 Course(C#,Cname,T#) 课程表 SC(S#,C#,score) 成绩表 Teacher(T#,Tname) 教师表问题： 1、查询“001”课程比“002”课程成绩高的所有学生的学号; select a.S# from (select s#,score from

2017-11-01 16:13:52 686

panjiao119的博客