自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

转载 距离和相似度度量

在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。  为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3

2014-08-29 16:47:32 1314

转载 LDA主题模型简介

何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说, 我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。D. M. Blei在2003年(准确地说应该是2002年)提出的LDA(Latent Dirichlet Allocation)模型(翻译成中文就是——潜在狄利克雷

2014-08-21 18:06:33 1719

转载 R语言的三种聚类方法

一、层次聚类一、距离和相似系数r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 来计算距离。其中x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有:euclidean                欧几里德距离,就是平方再开方。maximum         

2014-08-01 19:21:10 62506

转载 R语言文件操作

path = 'J:/lab/EX29 --在R语言中进行文件(夹)操作'setwd(path)cat("file A\n", file="A") #创建一个文件A,文件内容是'file A','\n'表示换行,这是一个很好的习惯cat("file B\n", file="B")  #创建一个文件Bfile.append("A", "B")  #将文件B的内容附到A内容的后面,注意

2014-07-30 12:19:31 2641

转载 R语言笔记-向量操作

1. 向量构成的基本元素为:数值(numeric)、字符(character)、逻辑值(logical)、复数型(complex) 2. 向量不需要定义类型,可直接赋值:ac(1,2,3,4,5,-3,-4);a #数值型向量[1] 1 2 3 4 5 -3 -4bc("one","two","three");b #字符型向量[1] "one" "t

2014-07-21 21:10:49 10793

转载 R语言 apply函数家族详解

applyApply Functions Over Array Margins对阵列行或者列使用函数apply(X, MARGIN, FUN, ...)lapplyApply a Function over a List or Vector对列表或者向量使用函数lapply(X, FUN, ..

2014-07-18 11:19:53 2554

转载 R中的apply、tapply、lapply、sapply、mapply、table等函数介绍

apply函数(对一个数组按行或者按列进行计算):使用格式为:apply(X, MARGIN, FUN, ...)其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。示例代码:> ma > ma     [,1] [,2] [,3] [,4][1,]    1    

2014-07-18 11:15:14 4001

转载 R语言系列之数据生成

生成规则数据1、使用“:“,如x=1:10,注意该方法既可以递增也可以递减,如y=10:12、seq,有两种用法:①seq(起点,终点,步长); ②seq(length=9, from=1, to=5)    seq还有一种简写:seq(x)    #相当于1:length(x),但当length(x)为0时,返回integer(0)3、c(1,2,8)4、使用scan(),可

2014-07-17 11:57:52 2856

转载 R语言学习之字符串处理

用于字符串分割的函数:如strsplit('123abcdefgabcdef','ab')[[1]][1] "123"   "cdefg" "cdef" #字符串连接:paste() #paste(..., sep = " ", collapse = NULL)#字符串分割:strsplit() #

2014-04-18 17:11:55 756

转载 arules:关联规则及可视化

在个性化推荐中,除了应用比较广的协同过滤,还有关联规则。作为数据挖掘中一个独立的课题,关联规则用于从大量数据中挖掘出有价值的数据项之间的相关关系,比如购买啤酒的顾客有多大的概率购买尿布?这就购物篮中比较著名的”啤酒与尿布“的故事;介绍两个关联规则中常用的算法:Apriori和Eclat,这两个算法在arules中均有涉及; 关联规则维基百科:Apriori算法是应用比较广泛的频繁项集的算法,特别是

2014-04-18 14:53:23 9221

转载 R语言学习之apply

applyApply Functions Over Array Margins对阵列行或者列使用函数apply(X, MARGIN, FUN, ...)lapplyApply a Function over a List or Vector对列表或者向量使用函数lapply(X, FUN, ..

2014-04-17 16:56:09 1726

原创 R语言学习笔记1

中文文本挖掘软件包:tmcn用来消除两向量、列表、数据框等中的sh

2014-04-17 16:44:38 8429

原创 Linux

关于在Linux安装apache2过程中遇到问题:sherry@ubuntu:/etc/init.d$ sudo apache2 -k restartapache2: bad user name ${APACHE_RUN_USER}首先因为在Ubuntu下安装完Apach2之后,启动apache2的默认用户为www-data,其默认用户组也是www-data,所以当你以当前自己

2014-03-26 16:29:53 527

原创 数据挖掘学习笔记(4)

网站日志分析相关知识:W3C扩展日志文件格式常用属性说明表字段名描述客户端IP地址访问服务器的任何客户端的IP地址用户名称访问服务器的用户名称服务名在客户机上运行的Internet服务服务器名称生成日志项的服务器名称服务器IP生成日志项的服务器IP地址服务器端口商户端连接到的

2014-03-22 21:43:08 1067

原创 数据挖掘学习笔记(3)

常见的数据融合方法有:静态的融合方法,如加权最小平方等;动态的融合方法,如递归加权最小平方、卡尔曼滤波、小波变换的分布式滤波等;基于统计的融合方法,如马尔可夫随机场、最大似然法、贝叶斯值等;基于信息论算法的方法,如聚集分析、自适应神经网络、表决逻辑、信息熵;基于模糊集理论的聚类方法等。数据清理的四个环节:处理缺失数据、处理重复数据、处理噪声数据、处理异常数据。数据标准化是把区间较大的数据整

2014-03-18 14:13:58 1356

原创 数据挖掘学习笔记(2)

Google中取代GFS、 MapReduce的新技术:Colossus(大石像),Caffeine(咖啡困)。NoSQL指的是非关系型数据库,其最好的代表即为Cassandra(混合型的非关系数据库,类似于Google的BigTable),MongoDB是介于关系数据库和非关系数据库之间的基于分布式文件存储的数据库,由c++语言编写。CAP原理:一致性(Consistency):数据

2014-03-17 21:42:19 701

原创 数据挖掘学习笔记(1)

数据挖掘相关概念当被存储在本地时的数据称作数据,当把数据经过加工处理,它们转变成了有用的信息。如果信息经过合理的组合能够产生价值,特别是商业价值,此时就可以称其为知识。数据挖掘的过程就是数据加工处理变成信息,最后转化为知识的过程。 数据挖掘的一些主要工具:商用的MATLAB、IBM Intelligent Miner、SAS Enterprise Miner、SPSS Cl

2014-03-16 16:51:07 1273

原创 一个IT技术资料下载的网站

51CTO技术下载

2012-07-28 16:39:21 599

C++编程艺术

本书不同于大多数其他的C++书籍。其他的C++书籍讲授语言的基础,而配展示了如何应用C++在更大的范围内完成有趣的、有用的、甚至是神秘的程序设计任务。在此过程中充分显示了C++语言的强大功能和优雅性。

2012-07-29

21天学通C++

开始学习如何使用C++进行编程之前,读者需要有几样东西:编译器、编辑器以用本书。即使没有C++编译器和编辑器,读者仍可通过本书学习C++,做些练习,将学到更多的知识。

2012-07-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除