大数据概论
EverestRs
Vtec is the best!
展开
-
大数据与数据分析概述
何为数据?——数据的几种定义数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的。数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以...原创 2018-10-03 20:45:39 · 3729 阅读 · 0 评论 -
R语言presentation——超市销售数据分析
我们需要用到dplyr包、ggplot2包、chron包、reshape2包> library("dplyr", lib.loc="~/原创 2018-12-15 13:02:38 · 12951 阅读 · 56 评论 -
常用的R Packages
R语言由近几年随着数据挖掘、机器学习在国内兴起而大热,现在R已经发展成为一个社区语言,有者非常多的packages支持工程应用,几乎任何问题都可以在R的packages中找到解决方案,这是R优于SPSS和SAS(模块化分析)的一个强大功能。此外,对于没有编程基础的统计学和金融学领域分析人员,R语言以较易的代码任务而胜过python(需要专门训练的编程项目)。目前在CRAN和GitHub上的pac...原创 2018-12-03 13:24:55 · 1494 阅读 · 0 评论 -
R语言学习(五)——聚类分析
什么是聚类分析聚类是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象是不相似的。聚类与分类的区别:聚类是一 种无监督的学习方法。与分类不同,它不依赖于事先确定的数据类别和标有数据类别的学习训练样本集合。聚类是观察式学习,而不是示例式学习。聚类分析的典型应用在商务上,聚类能帮助市场分析人员从客户基本库中发...原创 2018-11-27 22:09:39 · 10880 阅读 · 0 评论 -
大数据概论期末复习
定义数据:数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数...原创 2019-01-09 21:41:53 · 5343 阅读 · 0 评论 -
R语言——assignment5
对taxGdp.csv进行分析,预测GDP为500000时,税收为多少?#读入数据> mydata<-read.csv(file.choose(),T)#将数据中的NA处理掉> mydata2<-na.omit(mydata) > head(mydata2) 年份 tax GDP1 1978 519.28 3645.222 197...原创 2018-11-29 13:30:58 · 332 阅读 · 0 评论 -
R语言——assignment4
对销售数据进行分析:读入数据&amp;amp;gt; mydata&amp;amp;lt;-read.csv(file.choose())&amp;amp;gt; head(mydata) Channel Region Fresh Milk Grocery Frozen Detergents_Paper Delicassen1 2 3 12669 9656 7561 214 ...原创 2018-11-17 13:08:18 · 360 阅读 · 0 评论 -
R语言——assignment3
有如下数据:&amp;amp;gt; A&amp;amp;lt;-c('Y','Y','N','N','Y')&amp;amp;gt; B&amp;amp;lt;-c('N','Y','Y','Y','N')&amp;amp;gt; C&amp;amp;lt;-c('Y','Y','Y','Y','N')&amp;amp;gt; D&amp;amp;lt;-c(原创 2018-11-17 12:47:39 · 424 阅读 · 0 评论 -
R语言——assignment2
读取forclass.csv> data<-read.csv(file.choose()) #选择forclass.csv文件,读入数据> head(data) #数据过多,这里使用head()函数展示前六行 weight Time Chick Diet1 42 0 1 12 51 2 1 13 5...原创 2018-11-17 11:42:25 · 448 阅读 · 0 评论 -
R语言学习(三)——决策树分类
分类分类(Classification)任务就是通过学习获得一个目标函数(Target Function)f, 将每个属性集x映射到一个预先定义好的类标号y。分类任务的输入数据是记录的集合,每条记录也称为实例或者样例。用元组(X,y)表示,其中,X 是属性集合,y是一个特殊的属性,指出样例的类标号(也称为分类属性或者目标属性)。解决分类问题的一般方法分类技术是一种根据输入数据集建立分类模型...原创 2018-11-04 12:03:58 · 15380 阅读 · 0 评论 -
R语言学习笔记(二)——回归分析
什么是回归?回归是指研究某一个变量(称为因变量)与一个或多个变量(称为自变量或解释变量)之间的相互依赖关系,或者说用自变量解释因变量的变化,进一步,对于自变量(在重复抽样中)的给定值,估计或预测因变量的总体均值。变量间的关系:(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。是一一对应的确定关系设有两个变量x和y,变量y随变量 x一起变化,并完全依赖于x,当变量x取某个数...原创 2018-10-28 15:43:57 · 6779 阅读 · 0 评论 -
如何高效率学习R?[转自R语言中文社区]
学R主要在于5点三阶段:第一阶段有一点:基础的文件操作(read., write.)、数据结构知识,认识什么是数据框(data.frame)、列表(list)、矩阵(matrix)、向量(vector),如何提取(包括which, []等)、置换(t, matrix等)、删除(-, which等)、运算(+, -, , / , %%, %/%等)、转换(as.)、修改(edit, fix等)数...转载 2018-10-20 22:10:21 · 747 阅读 · 0 评论 -
R语言学习(四)——对数据进行操作
判断变量的属性is.character(x) #判断是否为字符型is.numeric(x) #判断是否为数值型is.vector(x) #判断是否为一个向量is.matrix(x) #判断是否为一个矩阵 is.data.frame(x) #判断是否为一个数据框创建一个矩阵&amp;amp;amp;amp;amp;gt; x &amp;amp;amp;a原创 2018-11-04 12:22:39 · 1856 阅读 · 0 评论 -
R语言——assignment1(电视剧数据分析)
对如下数据进行描述性分析,其中包括:最大值,最小值,中位数,众数等,求表的行数、列数。读入数据&amp;gt; mydata&amp;lt;-read.csv(&quot;C:\\Users\\adwar\\Desktop\\soapdata.csv&quot;)求表的行数:&amp;gt; nrow(mynewdata)[1] 39求表的列数:&amp;gt; n原创 2018-10-13 15:50:50 · 1779 阅读 · 4 评论 -
R语言学习笔记(一)
什么是R语言?R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R语言的发展历史:R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为R是S语言的一种实现。而S语言是由AT&amp;amp;amp;amp;amp;amp;amp;amp;T贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。最初S语言的实现版本主要是S-PLUS...原创 2018-10-13 16:50:20 · 980 阅读 · 0 评论 -
R语言学习(六)——关联规则分析
什么是关联规则引例:啤酒与尿布发现了买尿布的顾客经常也会买啤酒后,超市把两者摆在一起,从而提高了两者的销量。具体原因是:年轻的父亲下班回家的路上需要给孩子买尿布,但他们又没空去酒吧,所以就通常也给自己买一些啤酒。关联规则的基本概念关联规则的主要目的是找出数据集中的频繁模式,即多次重复出现的项之间的“关联”。关联规则与聚类一样,都是无监督的学习。它们都不用来预测。应用关联规则最经典的案例...原创 2018-12-15 16:18:20 · 8740 阅读 · 6 评论