- 博客(30)
- 资源 (1)
- 收藏
- 关注
原创 R语言 windows系统下安装tar.gz包
今天因为需要,要安装一个老版的tm包(tm_0.5-10.tar.gz),于是找了怎么在windows下安装tar.gz包的方法,找到有位大神是重编译,然后再安装的,看了五秒钟之后决定放弃-_-! 再找到了一编,利用rcmd安装的,它需要安装Rtools,恰好我已经安装了,检查了一下环境变量,也对头!于是跟着方法做了,于是问题来了,这孙子特么去C盘找Rtools-_-! 突然灵光一闪,想
2017-02-22 20:50:19 8603
原创 R语言 决策树--预测模型
决策树,算法的目标是建立分类预测模型或回归预测模型,是一种预测模型,按目标不同可以细分为分类树和回归树,因为在展示的时候,类似于一棵倒置的树而得名。如下图: 基本概念: 根节点:如上图中最上方,一棵决策树只有一个根节点。 中间节点:位于中间的节点,有上有下的节点。 叶节点:没有后续连续的节点叫叶节点,意味着至此为止。 二叉树和多叉树:每个非节点只有两个分支,叫二叉树,多个就叫多叉树,上
2017-02-19 17:15:49 13274 1
原创 R语言 判别分析小结
判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即距离判别、Fisher判别和Bayes判别和。距离判别思想是根据已知分类的数据计算各类别的重心,对未知分类的数据,计算它与各类重心的距离,与某个重心距离最近则归于该类。Fisher判别思想是投影降维,使多维问题简
2017-02-18 14:57:35 7498
原创 R语言 聚类分析
聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。 聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类的方法: 1、按聚类结果分:覆盖型和非覆盖型
2017-02-18 14:04:38 5305
原创 R语言 时间序列ARIMA模型方法
原理什么的百度一搜一堆,看不明白,先学会用这个工具吧! ARIMA:全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出一著名时间序列预测方法 ,所以又称为box-jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)称为差分自回
2017-02-17 14:17:03 82050 22
原创 R语言实战笔记--第十六章 高级图形进阶
R语言实战笔记–第十六章 高级图形进阶标签(空格分隔): R语言 lattice 交互式图形图形系统简介 本文为R语言实战中最后一章,介绍的是图形的高级进阶,主要讲述了两个包(lattice和ggplot2)以及交互式图形的做法,极大扩展了R的绘图功能,R中的图形系统主要有四种,base、grid、lattice和ggplot2。 base不需要加载,直接可以使用,之前几乎所有的统计绘图都使
2017-01-25 11:30:50 3297
原创 R语言实战笔记--第十五章 处理缺失数据
R语言实战笔记–第十五章 处理缺失数据标签(空格分隔): R语言 处理缺失数据 VIM mice 缺失值(NA),是导致我们计算错误的一大来源,处理缺失数据在实际的应用中有着较为重要的作用。基本方法 使用函数中内置的缺失值处理参数:在一般的计算函数如sum中,就包括了na.rm=T/F来控制是否忽略缺失值,默认不忽略,计算结果为NA,若忽略,则返回排除缺失值之后的计算结果。 使用na.om
2017-01-23 14:45:14 1765
原创 R语言实战笔记--第十五章 处理缺失数据
R语言实战笔记–第十五章 处理缺失数据标签(空格分隔): R语言 处理缺失数据 VIM mice 缺失值(NA),是导致我们计算错误的一大来源,处理缺失数据在实际的应用中有着较为重要的作用。基本方法 使用函数中内置的缺失值处理参数:在一般的计算函数如sum中,就包括了na.rm=T/F来控制是否忽略缺失值,默认不忽略,计算结果为NA,若忽略,则返回排除缺失值之后的计算结果。 使用na.om
2017-01-23 14:40:07 1748
原创 R语言实战笔记--第十四章 主成分和因子分析
R语言实战笔记–第十四章 主成分和因子分析标签(空格分隔): R语言 主成分分析 因子分析原理及区别 主成分分析与因子分析很接近,其目的均是为了降维,以更简洁的数据去解释结果,但这两种方法其实是相差甚远,有幸找到一篇博文描述了这两者的不同,主成分分析和因子分析十大不同点【原文连接】,在这里引用(略有更改)一下。 不同点 主成分分析 因子分析 原理 每个主成分均为所有原始变量的线性
2017-01-21 10:30:00 18753 1
原创 R语言实战笔记--第十三章 广义线性模型
R语言实战笔记–第十三章 广义线性模型标签(空格分隔): R语言 广义线性模型 logistic回归 泊松回归广义线性回归 我们知道,OLS回归的要求是假设因变量是正态分布(还有独立性、线性及同方差性),但是,我们在使用时,因变量通常会出现二值变量(如是/否、通过/不通过之类)或多分类变量(如优/良/中/差等),又或者为计数变量(如一周的交通事故次数这类非负有限值)。而广义线性回归就是能够解决此类
2017-01-11 18:35:26 8252
原创 R语言实战笔记--第十二章 重抽样(置换检验)与自助法
R语言实战笔记–第十二章 重抽样(置换检验)与自助法标签(空格分隔): R语言 重抽样 自助法 置换检验置换检验 双样本均值检验的时候,假设检验的方法就是,检查正态性、独立性、方差齐性,分别对应的参数非参数方法进行假设检验,但是,这些方法都要求样本数必须有多少多少,但是,由于试验时,各种条件的限制,导致样本量过小,此时以上方法几乎都会失真,置换检验就应运而生了。 Permutation te
2017-01-06 19:09:11 7324
原创 R语言实战笔记--第十一章 中级绘图之散点、气泡、相关、马赛克
R语言实战笔记–第十一章 中级绘图之散点、气泡、相关、马赛克标签(空格分隔): R语言 绘图方法 散点图 气泡图 相关图 马赛克图 R语言实战中的中级绘图包括了散点图、气泡图、拆线图、相关图和马赛克图,主要讲述的是二元和多元关系的图形表述。散点图 散点图,可以说得上是所有图的基础,因为其它图无一不是由点组成的线或面,理解散点图,其它图基本就有个大概的理解了。 散点图一般来说,都是配对出现,
2017-01-04 15:42:48 9996 1
原创 R语言实战笔记--第十章 功效分析&样本量
R语言实战笔记–第十章 功效分析&样本量标签(空格分隔): R语言 功效分析 样本量功效及两类错误 功效及样本量在概率论与数理统计的假设检验部分里面有说明,可以返回查看原理,这里以R语言实战的描述简单复习一下。 以书中例子说明,两组玩手机开车试验,它们的统计量应该是双总体,标准差未知的配对t检验,所以,若它们没有什么区别,则零假设为它们的反应时间之差为0,所以实际统计量应该是(x¯1−x¯2
2017-01-03 21:16:36 3779
原创 R语言实战笔记--第九章 方差分析
R语言实战笔记–第九章 方差分析标签(空格分隔): R语言 方差分析术语 组间因子,组内因子,水平:组间因子和组同因子的区别是,组间因子对所有测试对象进行分组,而组内因子则把所有测试对象归为同一组,水平则是因子的分类值 单因素方差分析,多因素方差分析,协方差分析,多元方差分析,协变量:单因素,多因素都是一元方差分析,只有一个因变量(y),协方差分析也是,多元就是有多个因变量,协变量的意思其实
2016-12-30 16:25:08 9388 1
原创 R语言实战笔记--第八章 OLS回归分析
R语言实战笔记–第八章 OLS回归分析标签(空格分隔): R语言 回归分析 首先,是之前的文章,数理统计里面的简单回归分析,这里简单回顾一下: 简单回归分析的原理:最小二乘法,即使回归函数与实际值之差的平方和最小。所以它在R中也称为OLS模型,它能实现的回归分析为简单线性回归、多项式回归以及多元线性回归。 模型中的称谓:自变量、解释变量及预测变量为x,因变量、结果变量、效标变量及预测响
2016-12-25 16:32:03 38720
原创 R语言实战笔记--第六&七章 统计图形介绍及基本统计方法
R语言实战笔记–第六&七章 统计图形介绍及基本统计方法标签(空格分隔): R语言 箱线图 直方图 t检验 Kruskal-Wallis检验 Friedman检验 R语言实战的第六章和第七章介绍了一些基本的统计图形(直方图、条形图、饼图、核密度图、点图、箱线图)和基本的统计方法(描述性统计量,如均值、方差、标准差、最大/小值、四分位数等,具体可以看本人的数据统计的描述性统计部分的两章:统计量、常用概
2016-12-20 12:00:46 5848
原创 R语言实战笔记--第四&五章 数据管理
R语言实战笔记–第四&五章 数据管理标签(空格分隔): R语言 第四、第五章都是说的数据管理,合并在一起做个总结,在个人看来,数据管理是一件非常繁琐的事情,但是,每个统计的前提都是一个合适的数据样本,对的,“合适”,做到合适可不是一个简单的事情。 本文就不分基本和高级两部分了,合在一起写吧。 首先,我们建立一个数据框,这个数据框的数据来源可以随意,我直接使用书上面的例子吧。(PS:ma
2016-12-13 21:23:58 2461
原创 R语言实战笔记--第三章 图形初阶
个人认为,第三章就是个了解+查询的作用,当你经过了前面两章,学习了R语言的基础编程方式,主要是函数的调用,这一章就是个参考章,相当于一个字典,和第二章的数据导入是一模一样的,所以,本章主要掌握的内容就是,知道它可以干什么就够了,至于它具体是怎么实现的,在项目中实践应该是最快的记忆方法了。 So,本文就只是把文中用到的函数以及参数罗列,Mark一下,方便查询。符号和线条(par()/plot()
2016-12-10 09:36:45 1007
原创 R语言实战笔记--第二章 数据类型及结构
第二章 创建数据标签(空格分隔): R语言本章的内容其实很少,很多都是需要用到的时候才会去找的东西,个人认为本章主要掌握以下两点: 数据结构、数据输入数据结构 重点中的重点,一切的处理都是针对数据的,没有数据就没有后续的一切 下面先介绍概念 首先介绍一下数据类型,有数值型,字符型,逻辑型,复数型(虚数),原生型(字节),各个类型不详细解释,另外,还有你需要分别告诉R:实例标识符是哪个
2016-12-09 21:43:11 953
原创 R语言实战笔记--第一章 R的安装配置及使用
第一章 R的安装配置及使用标签(空格分隔): R语言 一般来说,书的第一章都是简介,本书也是如此,按个人的理解,本章主要掌握以下几点就足够了。 下载安装、包的下载安装、工作空间、输入输出以及使用帮助 下载安装官网,请自行百度安装方法~包的下载安装 包是什么,包就是每天早上吃的包子,是别人做好的,可以直接吃的包子,有猪肉馅,白菜馅……不用管它是怎么做的,我只管吃,而且,是免费的!!!
2016-12-09 16:32:37 1718 1
原创 前言--R语言利用jiebaR进行词频分析----以一个项目来开始学习R吧
前言–R语言利用jiebaR进行词频分析—-以一个项目来开始学习R吧标签(空格分隔): R语言 中文分词 词频分析 jiebaR 词云 PS:刚开始学R,网上找书,很多人推荐《153分钟学会R》这本书,于是作者君就找回来看了,看着《153分钟学会R》这本书,尼玛,153分钟151问题(加序言和附录正好153……),对于我从来没有接触过R的人来说,里面的问题简直就是莫名其妙的冒出来,没有系统的路线,
2016-12-09 09:57:45 9596 3
原创 推断性统计部分(五)---简单回归分析
推断性统计部分(五)—简单回归分析标签(空格分隔): 概率论与数理统计客观世界中普遍存在着变量之间的关系,有确定关系及非确定关系,确定关系是可以直接使用函数关系来表达,比如y=axy=ax之类,现实的例子,如产品单价、销售数量及销售收入的关系,这个关系就可以直接使用前面的函数式来计算的,属于确定关系;非确定关系即所谓的相关关系,我们只知道它们有关,但不能用准确的函数式来定义它。回归分析正是研究相关关
2016-12-07 20:01:02 8436
原创 推断性统计部分(四)---简单方差分析
推断性统计部分(四)—简单方差分析标签(空格分隔): 概率论与数理统计方差分析,分为单因素试验方差分析、多因素无重复试验方差分析及多因素试验方差分析三部分。在试验中,考察的指标称为试验指标,影响试验指标的条件称为因素(一般分为可控因素,如温度、剂量;不可控因素,如测量误差),因素所处的状态(状态这个词比较抽象,我所理解的,或许用子因素来描述会更好理解)称为该因素的水平,给出几个例子来说明三个部分的试
2016-12-06 13:15:43 1526
原创 推断性统计部分(三)---假设检验
推断性统计部分(三)—假设检验标签(空格分隔): 概率论与数理统计假设检验假设检验与置信区间其实是一样意思,区别就是再多做两步工作(假设及判断),仅此而已。 我们先回顾置信区间是计算的 1、判断是否正态总体 2、找到枢轴量(简单的说,就是一个关于随机变量X及参数的函数,它有自己单独的,与变量及参数都无关的分布,这样就可以用过这个分布来确定函数内的参数的置信区间) 3、利用枢轴量的分
2016-11-29 11:08:10 6042
原创 推断性统计部分(二)---参数估计
推断性统计部分(二)—参数估计标签(空格分隔): 概率论与数理统计参数估计包含两大部分,点估计及区间估计,点估计,是估计参数点的值,一个确定的值,区间估计就是估计参数的范围。点估计分为矩估计法及最大似然估计法两种,矩估计法的原理就是样本的k阶矩依概率收敛于相应的总体矩,然后建立方程组求解参数;最大似然估计就是利用利用样本的联合分布律建立似然函数,然后对各个参数进行求导得到似然函数的极值点,从而求出参
2016-11-28 10:46:11 2218
原创 推断性统计部分(一)---样本与分布的关系及其检验统计量
推断性统计部分(一)—样本与分布的关系及其检验统计量标签(空格分隔): 概率论与数理统计统计除了可以描述随机变量特征之外,还有一个重要作用,推断!这也是为什么把统计分为描述性统计和推断性统计的原因,以我目前的理解,推断性统计的作用在于以小推大,以微观推宏观,不排除后续继续深入学习之后得出新的结论。在我另一篇文章描述性统计(一)—-统计量中,写到过关于样本的一些统计量,在此基础上,增加样本与分布的关系
2016-11-26 16:56:35 2244
原创 描述性统计部分(二)----常用概率分布及用处简述
描述性统计部分最大的内容就是各种各样的分布了,各种分布的概率密度,期望,方差,当然还有偏度、峰度什么的,记录一个网址Wikipedia,里面各种分布的各种统计量都非常完整。可以直接点击查找Wikipedia-Distribution PS:它的公式也是用的MathJax来写的,是不是可以,嗯?嘿嘿嘿~尝试用了MathJax来做这个分布表格,字体大小不能调整,表格不能调,真是哔了狗~ 好吧,只能用
2016-11-26 12:40:28 2302
原创 描述性统计部分(一)----统计量
描述性统计部分(一)—-统计量标签(空格分隔): 概率论与数理统计1、期望E(X)E(X)又叫均值、加权算术平均值,其计算公式为:E(X)=∑ni=1xin=∑ji=1xi⋅ki∑ji=1ki=∑i=1∞xi⋅pi=∫∞−∞x⋅f(x)dx=∑i=1∞g(yi)⋅pi=∫∞−∞g(y)⋅f(x)dxE(X)=\frac{\sum_{i=1}^nx_i}{n}=\frac{\sum_{i=1}^jx_
2016-11-25 14:23:53 11586
原创 --概率论部分总结--
概率论部分总结概念:随机试验: 1、可以在相同条件下重复地进行; 2、每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果; 3、进行一次试验之前不能确定哪一个结果会出现。样本空间&样本点: 某个随机试验的所有可能结果组成的集合,每个结果称之为样本点随机事件: 样本空间的子集,简称事件,当且仅当子集中的一个样本点出现,称为事件发生基本事件: 由一个样本点组成的单点集频率: 进行
2016-11-24 20:44:17 947
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人