- 博客(20)
- 收藏
- 关注
原创 判别分析基础
与聚类分析的比较 判别分析是判别样品所属类型的一种统计方法。 判别分析与聚类分析不同,判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据。在实际中判别分析和聚类分析往往联合起来用,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。判别分析基本思想:样品和哪个总体距离最近,就判断它属于哪个总体。距离判别也
2016-03-29 12:46:57 5546
原创 关系网络图(igraph)-1
1.添加或删除节点 vertex()和vertices() 函数通过”+”增加节点,没有命名的参数作为新节点的节点名称,命名的参数作为新节点的节点属性; 函数通过”-“删除节点,要删除的节点用c()传递g <- make_empty_graph() + vertices(letters[1:10]) + vertices("foo", "bar", "bar2", "foob
2016-03-26 16:08:49 4043
转载 ggplot2-主题函数关系
ggplot2的主题函数的规律: 1.主题反应的是风格,主题函数theme一旦形成,绘图基本上没有太大改动 2.主题函数theme的参数有规可寻,等号前面为图表元素名称,等号后面的函数名为图表元素的几何属性,前后为继承关系。比如,element_rect=panel.background先看看主题设置:library(ggplot2)hgram <- qplot(carat,price,d
2016-03-26 12:07:57 1106
原创 SAS基础数据管理
数据集的复制、 变量和特点条件的记录IF数据集的拆分 Select 语句实现分类 output可以把分类结果输出数据集的合并 纵向合并 set 横向合并 merge by (首先对记录进行排序sort)修改数据集 先建立一个更新内容的数据集,然后再update 待修改的数据集 改动的内容 by 变量 (同样在更新之前要先对原数据集排序)PROC SQL合并数据集 分两种情
2016-03-24 21:06:34 1248
原创 Mastering R plot -3笔记
图形都会有内外边界,默认情况我们看不到外边界 par()$oma # 外边界[1] 0 0 0 0par()$usr # 作图区域的范围限制[1] 0.568 1.432 0.568 1.432op <- par(no.readonly = TRUE)par(oma = c(1,1,2,2))plot(1,1,type = "n",xlab = "",ylab = "",xaxt = "n"
2016-03-22 18:59:49 897
原创 Mastering R plot -1
colors,legends,and lines 虽然这些参数我都知道,但是当要画某些特定的图形时,大脑会空白,所以需要加深。1.data simulation# simulate some dataset.seed(111)dat <- data.frame(X = runif(100,-2,2), T1 = gl(n = 4,k = 25,labels
2016-03-21 18:39:51 586
原创 text mining 笔记
tm包主要用来处理文本挖掘,对于文本挖掘,往往涉及语料库(corpus) 1.构建语料库的函数有VCorpus()和PCorpus() VCorpus()创建不稳定语料库 PCorpus()创建永久性语料库,不易毁坏,可以指向外部的语料库 用法: VCorpus(x, readerControl=list(reader=x$Defaultreader
2016-03-18 21:56:16 1206
原创 ML-for hackers 第二章笔记
本章讲解如何用R的基本方法做出摘要表和基本的可视化,并看出变化趋势;并介绍了分布曲线的特点以及分类。本章所说的数值摘要就是一些基本的统计项目:均值和众数、百分数和中位数、标准差和方差; 可视化工具:直方图、核密度估计以及散点图。准备知识: 作者认为把分析数据的工作分为两个独立的部分:探索和确认对新数据集进行操作前,首先要推断数据集每一列的类型,含义;一种常用的的变量编码方式:虚拟变量编码(d
2016-03-17 12:56:38 805
原创 ML for hackers 第一章笔记
本书的第一章并不像其他书的第一章,仅仅是简单的介绍本书,很多代码需要细细推敲。1.读入文件 数据文件是制表符分割文件(.tsv),因此用read.delim()读取。 每行的数据类型都是strings,没有表头。数据中有许多空元素,将它设置为NAufo <- read.delim("E:/ML/ufo_awesome.tsv", sep = "\t",
2016-03-16 19:42:45 596
原创 采样技术
关于采样技术,目前主要有两大类抽样技术,即等概率抽样和非等概率抽样,在实际应用中,等概率是最常见的。 1.简单随机抽样 所谓简单随机抽样(SRS),是指所抽取的每个个体与总体的分布相同,如抽奖,这是一种最公平且概念上最简单的抽样法,可以直接套用统计学原理去进行估算与推论.在R中可以使用自带的sample()函数实现。 语法以及参数意义: sample(x,size,replace=
2016-03-13 15:18:56 1968
原创 马尔科夫蒙特卡洛算法(MCMC)
趁着周末,学习了此算法。一个重要的作用就是用来模拟目标分布的样本。下面看看具体情况。1.名词解释 MCMC方法就是*构造合适的马尔科夫链进行抽样而使用蒙特卡洛方法进行积分计算,既然马尔科夫链可以收敛到平稳分布。我们可以建立一个以π为平稳分布的马尔科夫链,对这个链运行足够长时间之后,可以达到平稳状态。此时马尔科夫链的值就相当于在分布π(x)中抽取样本。利用马尔科夫链进行随机模拟的方法就是MCMC。第
2016-03-13 15:16:43 50964 3
原创 缺失值,表整理—tidyr包
tidyr包主要涉及: 1)缺失值的简单补齐 2)长形表变宽形表与宽形表变长形表 3)列分割与列合并1.缺失值的简单补齐 library(tidyr) library(dplyr)# 创建含有缺失值的数据框示例x <- c(1,2,7,8,NA,10,22,NA,15)y <- c("a",NA,"b",NA,"b","a","a","b","a")df <- data.frame(
2016-03-10 10:08:12 2306
原创 重塑与整合数据集—reshape包
重塑数据时,通过修改数据的结构(行和列)来决定数据的组织方式。 整合数据时,往往将多组观测替换为这些观测计算的描述性统计量。 整合函数的语法: aggregate(x,by,fun) x是待折叠的数据的对象,by是一个变量名组成的列表,这些变量将被去掉以形成新的观测;fun是用来计算描述性统计量的标量函数,它将被用来计算新观测中的值。 # 根据气缸数和档位数整合mtcars数据,并返回各
2016-03-10 10:06:06 1224
原创 有用的书
1.《统计建模与R软件》 2.《R与统计分析》 3.《统计学习导论与R》 4.《R绘图现代统计图形》——谢益辉 5.《R Graph Cookbook》 6《ggplot2:数据分析与图形艺术》 7.《R数据可视化》
2016-03-06 09:52:16 430
原创 ggplot2_主题(theme)
主题系统控制着图形中的所有非数据元素外观 ggplot2内置主题: 内置两种主题: 默认theme_gray()使用淡灰色背景和白色网格线; 固定主题theme_bw()为传统的白色背景和深灰色的网格线。 参数base_size控制基础字体的大小,基础字体大小指的是轴标题的大小,图形标题比它大20%,周须标签比它小20%。主题设置的两种方式: -全局性设置:theme_set
2016-03-06 09:45:22 7429
原创 ggplot2_折线图
折线图可以反映某种现象的趋势。通常折线图的横坐标是时间变量,纵坐标则是一般的数值型变量。当然,折线图也允许横纵坐标为离散型和数值型。1.绘制单条折线图 有关时间序列的折线图library(ggplot2)library(lubridate) # 处理日期时间相关的R包Year <- year(seq(from = as.Date("2006-01-01"),to = as.Date("20
2016-03-06 09:30:21 8102
原创 ggplot2_散点图
散点图可以用来描述两个连续变量之间的关系,一般在做数据探索分析时会使用到,通过散点图发现变量之间的相关性强度、是否线性关系等。 1.绘制简单的散点图library(ggplot2)set.seed(123)x <- rnorm(100,mean = 2,sd = 3)y <- 1.5+2*x+rnorm(100)df <- data.frame(x = x,y = y)ggplot(d
2016-03-06 09:25:27 7665
原创 ggplot2绘制条形图
重要细节:条形图的高度表示的是数据集中变量的频数,还是表示变量取值本身1.离散型单变量的条形图 数据形式:已经汇总好的数据集和明细数据集 # 使用汇总好的数据集绘制条形图library(ggplot2)x <- c("A","B","C","D","E")y <- c(13,22,16,31,8)df <- data.frame(x = x,y = y)ggplot(data = df
2016-03-01 14:22:25 10763
原创 数据处理包plyr和dplyr包的整理
常见的数据处理包 dplyr——package1.数据对象:tbl对象 使用dplyr包预处理时建议使用tbl_df()或tbl_cube()或tbl_sql()函数将原数据转换为tbl对象2.观测筛选 将指定条件的观测筛选出来:filter()函数 filter(.data,…) .data为tbl对象 …为观测筛选条件,类似于subset()函数,但不同的是filter(
2016-03-01 08:07:16 7415
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人