数据挖掘
expleeve
当我看到现在身边的人时,我在想,自己是不是该专注于某件事了
展开
-
ID3算法
ID3 熵公式 Entropy(S)=∑i=1c−pilog2pi Entropy(S) = \sum_{i=1}^c - p_ilog_2p_i Gain信息增益 Gain(S,A)=Entropy(S)−∑v∈>VA|Sv||S|Entropy(Sv) Gain(S, A) = Entropy(S) - \sum_{v \in> V_A}\frac{|S_v|}{|S|}Ent原创 2015-03-13 15:42:04 · 582 阅读 · 0 评论 -
RServe安装教程
1、wget https://cloud.r-project.org/src/base/R-3/R-3.0.1.tar.gz2、由于Linux下R默认不支持Rserve安装,需要重新编译解压R-3.0.1.tar.gz包./configure --enable-R-shlibmake --enable-R-shlibmake install3、https://rforge.原创 2016-09-22 11:36:40 · 2885 阅读 · 0 评论 -
LU分解的实现
LU分解是将矩阵分解为一个下三角矩阵和一个上三角矩阵的乘积。矩阵可以不是NxN的矩阵一个可逆矩阵可以进行LU分解当且仅当它的所有子式都非零。如果要求其中的L矩阵(或U矩阵)为单位三角矩阵,那么分解是唯一的。同理可知,矩阵的LDU可分解条件也相同,并且总是唯一的。即使矩阵不可逆,LU仍然可能存在。实际上,如果一个秩为k的矩阵的前k个顺序主子式不为零,那么它就可以进行LU分解,但反之则不然。原创 2016-07-21 20:31:57 · 9304 阅读 · 0 评论 -
机器学习算法工程师需要掌握的技能与要踩的坑
1. 前言本来这篇标题我想的是算法工程师的技能,但是我觉得要是加上机器学习在标题上,估计点的人会多一点,所以标题成这样了,呵呵,而且被搜索引擎收录的时候多了一个时下的热门词,估计曝光也会更多点。不过放心,文章没有偏题,我们来说正经的。今天就说说机器学习这个最近两年计算机领域最火的话题,这不是一篇机器学习的技术文章,只是告诉大家机器学习里面的坑实在是太多,而且很多还没入门或者刚刚入门转载 2016-09-01 13:09:57 · 1606 阅读 · 0 评论 -
cholesky分解的实现
Cholesky 分解是把一个对称正定的矩阵表示成一个下三角矩阵L和其转置的乘积的分解。它要求矩阵的所有特征值必须大于零,故分解的下三角的对角元也是大于零的。Cholesky分解法又称平方根法,是当A为实对称正定矩阵时,LU三角分解法的变形。通过直接比较A=LL^T两边的对应元素来计算L。设L为一下三角形实矩阵,其元素由 (i为所在行,j为所在列)确定。比较A=LL^原创 2016-07-17 19:20:34 · 11037 阅读 · 0 评论 -
基于用户的协同过滤算法
看了Mahout的基于用户的协同过滤算法的实现主要包含以下步骤:1、根据用户对于物品的已有偏好值,计算各个用户之间的相似度(如,皮尔逊相关系数)2、获取当前用户的最相似的N个用户3、获取当前用户没有给出偏好的,N个用户已给出偏好的物品集合4、通过(SUM(当前用户偏好值x与当前用户相似度)/总相似度)计算物品对于N个用户的平均偏好5、获取TopN个物品作为用户的推荐结果返回原创 2016-07-11 13:46:23 · 1543 阅读 · 1 评论 -
Hadoop环境搭建与Eclipse调试环境搭建
鄙人不才,最近才接触Hadoop,用来做些分析。下面把搭建Hadoop环境遇到的一些坑记录一些,做个记录。一、搭建虚拟机,初试Hadoop1、使用VMWare安装Ubuntu16.04,包括添加共享等2、安装JDK1.7和ssh,Java1.6没装3、下载Hadoop2.6.0,是bin版本的4、参考Hadoop的文档,在Linux下运行了一下Standalone Oper原创 2016-06-28 20:05:03 · 608 阅读 · 0 评论 -
R软件问题,“学生化残差与杠杆值图(Residuals vs Leverage)”如何分析?
https://www.zhihu.com/question/36224636/answer/66618532转载 2016-03-10 15:59:13 · 14586 阅读 · 0 评论 -
卡方检验
今天使用CrossTable生成列联表时,遇到了一个问题,这里记录一下library(vcd)library(gmodels)CrossTable(Arthritis$Treatment, Arthritis$Improved)得到的结果是 Cell Contents|-------------------------||原创 2016-03-07 13:34:46 · 4161 阅读 · 0 评论 -
Fisher's Exact Test
http://www.doc88.com/p-6814714402991.htmlhttp://www.docin.com/p-676114198.html转载 2016-01-06 14:36:02 · 847 阅读 · 0 评论 -
x2检验
x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。 一、四格表资料的x2检验 例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较组别转载 2016-01-06 11:37:27 · 5280 阅读 · 0 评论 -
似然函数
似然函数在形式上,其实就是样本的联合密度。把x1,x2,x3,.....,xn看作常数,而把待定参数θ0,θ2,.....,θn看作 L 的自变量。对连续型总体X 和 离散型随机变量X,样本的似然函数分别是概率密度 和 分布率的连城形式。极大似然估计法的基本思想:在OLS估计中,我们假定一个单一总体的参数是确定的。这个总体可以生成大量的随机样本,我们所用的样本不过是其中的一个。总之转载 2016-01-06 09:36:02 · 7308 阅读 · 0 评论 -
最小二乘法OLS
最小二乘法 Method of Ordinary Least Squares 原理:构造合适的估计量,使得残差平方和(Residual Sum of Squares, RSS)最小。 \sum_{i=1}^n i = \frac{n(n+1)}2原创 2016-01-05 20:41:06 · 2082 阅读 · 0 评论 -
特征向量的几何含义
长时间以来一直不了解矩阵的特征值和特征向量到底有何意义(估计很多兄弟有同样感受)。知道它的数学公式,但却找不出它的几何含义,教科书里没有真正地把这一概念从各种角度实例化地进行讲解,只是一天到晚地列公式玩理论——有个屁用啊。根据特征向量数学公式定义,矩阵乘以一个向量的结果仍是同维数的一个向量,因此,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量,那么变换的效果是什么呢?这当然与方阵的构转载 2015-10-19 20:42:32 · 494 阅读 · 0 评论 -
基于大规模语料的新词发现算法
文章主要讲了 凝固程度和自由程度 的应用,可以参考http://www.csdn.net/article/2013-05-08/2815186转载 2015-10-17 10:21:56 · 1122 阅读 · 0 评论 -
C4.5算法
C4.5 熵公式 Entropy(S)=∑i=1c−pilog2pi Entropy(S) = \sum_{i=1}^c - p_ilog_2p_i Gain信息增益 Gain(S,A)=Entropy(S)−∑v∈VA|Sv||S|Entropy(Sv) Gain(S, A) = Entropy(S) - \sum_{v \in V_A}\frac{|S_v|}{|S|}Entro原创 2015-03-13 15:59:14 · 547 阅读 · 0 评论 -
获取不重复的随机数(抽签原理)
声明:以下方法基于小样本不放回抽样,每次抽取得到的概率相同,即依赖于之前的结果,如有错误则如下不成立。平时,我们获取不重复的随机数时,一般需要有个位图,或者集合记录,或者进行循环嵌套比较,保证没有重复的数字被选中出来,我今天使用抽样的时候也想了一下这个问题。做下记录,如下:1、我们希望从1~100这100个数中,随机抽取10个不重复的数2、这相当于找出一个由1和0表示的序列,序列长度为原创 2016-11-11 11:43:47 · 8846 阅读 · 0 评论