R
LT-CAT努力前进
I think so I am.
展开
-
浅谈数据挖掘中的关联规则挖掘
浅谈数据挖掘中的关联规则挖掘 数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子,比如通过调查商场里顾客买的东西发现,30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—>枕套转载 2016-08-03 09:08:16 · 568 阅读 · 0 评论 -
R语言报错原因
In gsub(sprintf("(*UCP)\\b(%s)\\b", paste(sort(words, decreasing = TRUE),出现这个错误的原因是我的stopwords里存在非UTF-8的元素 可以使用Encoding函数查看,解决方法就是,把那些字符去掉就行. stopwords<-stopwords[Encoding(stopwords)!=”unknown”]#去除未知转载 2017-02-28 15:07:41 · 5540 阅读 · 0 评论 -
时间序列模型
kings<-scan("http://robjhyndman.com/tsdldata/misc/kings.dat",skip=3)#读入时间序列数据,忽略前三行kingskingstimeseries<-ts(kings)#将数据存储到一个时间序列对象中去births<-scan("http://robjhyndman.com/tsdldata/data/nybirths.dat")b翻译 2016-11-16 18:20:02 · 926 阅读 · 0 评论 -
关联规则相关学术论文网址
利用shiny包快速搭建可视化原型系统 http://cos.name/2016/06/use-shiny-fleetly-set-up-visual-prototype-system/基于关联规则的图书借阅服务推荐方法 http://www.chnlib.com/LunWen/tushuguanguanli/2015-07-02/34623.html基于PSO的电信业数据关联规则挖掘 htt原创 2016-08-26 17:02:04 · 580 阅读 · 0 评论 -
R语言中的并行计算
众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是R在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。parallel包实际上整合了之前已经比较成熟的snow包和multicore包,multicore无法在windows下运行。parallel包可以很容易的在计算集群上实施并行计算,在多个CPU核心的单机上,也能发挥并行计算的功能。我们今天就来探索转载 2016-08-15 09:05:36 · 3863 阅读 · 0 评论 -
R语言Data Frame数据框常用操作
Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。 初始化 使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个student的Data转载 2016-08-26 14:17:58 · 3290 阅读 · 0 评论 -
回归分析以及r语言实现(一)
一、数据探索阶段 1、了解变量类型 做回归分析前,了解数据集是怎样的?那些是数值型变量,那些是分类变量,这一步是相当重要的。 r代码:> class(mydata$Middle_Price)[1] “numeric”> class(mydata$MPG.city.)[1] “factor” 另外我们利用factor函数对各水平进行赋值:status<-factor(status,order=原创 2016-08-11 10:47:54 · 3847 阅读 · 0 评论 -
R语言:基本变量及其之间关系探索分析
一、查看数据结构dim(iris) # 了解数据集的维度,有多少行多少列?names(iris) # 数据有哪些列?str(iris) # 数据的结构如何?attributes(iris) # 数据的列名、行名和数据结构然后看看数据集前几行和后几行长成什么样子:iris[1:5, ] # 看看数据的前5行head(iris) # 看看数据的前6行tail(iris) # 看看数据的最后6行iri原创 2016-08-11 10:38:25 · 7995 阅读 · 0 评论 -
用关联规则挖掘超市购物的商品组合
读取文件,存放在csv格式的数据表格中,每一行代表一个购买过程。setwd("D:/myR")G <- read.csv("2014.12.csv", header=T)加载包arules,运行包install.packages("arules")library(arules)将数据转换成稀疏矩阵的数据格式setwd("D:/myR")groceries <- read.transaction原创 2016-08-10 14:49:50 · 2640 阅读 · 0 评论 -
数据挖掘书籍
Web数据挖掘 http://book.douban.com/subject/3639345/集体智慧编程 http://book.douban.com/subject/3288908/简单,有代码。这就是搜索引擎 http://book.douban.com/subject/7006719/PageRank 和 Hub算法,讲得比较通俗,比较少使用公式。统计推断 http://book.d转载 2016-08-30 15:26:59 · 355 阅读 · 0 评论 -
搜索引擎设计一(百度为例)
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象.搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。但是,如何设转载 2016-08-30 15:15:50 · 7226 阅读 · 0 评论 -
R语言学习之关联规则算法
R语言学习之关联规则算法 卡卡 2014-03-05 10:42:03library(arules) #加载arules程序包data(Groceries) #调用数据文件frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10)) #求频繁项集inspect(frequentsets[转载 2016-08-08 18:06:16 · 3571 阅读 · 0 评论 -
R语言批量为行列命名
本文转自:http://www.dataguru.cn/article-2217-1.html;摘要: R语言中经常进行矩阵(表格)数据的处理,在纷繁复杂的数据中,为其行列定义一个名字变得尤为重要。在处理巨量数据时,批量命名将是一个不错的操作方法,下面我们通过一些具体的例子演示怎样在R语言中为矩阵的行列进 ...R语言中经常进行矩阵(表格)数据的处理,在纷繁复杂的数据中,为转载 2016-08-08 10:56:47 · 20512 阅读 · 0 评论 -
R语言:system.file()函数中文帮助文档(中英文对照)
system.file(base)system.file()所属R语言包:base Find Names of R System Files R系统文件的名称转载 2016-08-08 10:37:02 · 21273 阅读 · 0 评论 -
数据挖掘书籍
Web数据挖掘 http://book.douban.com/subject/3639345/集体智慧编程 http://book.douban.com/subject/3288908/简单,有代码。这就是搜索引擎 http://book.douban.com/subject/7006719/PageRank 和 Hub算法,讲得比较通俗,比较少使用公式。统计推断 http://book.d转载 2016-08-29 15:30:15 · 391 阅读 · 0 评论 -
深入搜索引擎--查询(Query)
1.Query的数据分析 Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大反向分词算法转载 2016-08-29 15:15:53 · 1517 阅读 · 0 评论 -
文本分析-相似文章匹配
概念理解: 推荐:在数据挖掘中,推荐包括相似推荐及系统过滤推荐。 1,相似推荐:指当用户表现出对某人或某物的兴趣是,为他推荐与之相类似的人,或者物,他的核心是,人以群分,物以类聚 2,协同过滤推荐:指利用已有用户群过去的行为和意见,预测当前用户最有可能喜欢那些东西。 余弦相似度: 求两者之间的夹角,得出对应的余弦值,该值可以用来表示两个向量的相似性,夹角越小,余弦值越大,方向更吻合,则原创 2017-03-03 16:26:26 · 2198 阅读 · 0 评论