机器学习之R语言基础
文章平均质量分 63
鲁鲁酱1996
菜鸟进化中!!!!
展开
-
机器学习笔记之R语言基础5(T,F检验)
T检验 t检验分为单总体检验和双总体检验。单总体检验:【样本平均数,总体平均数差异】-检验一个样本平均数与一个已知的总体平均数的差异是否显著。 –当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。 样本平均数计算: 样本标准差计算: T分布概率密度函数图像如下: 双总体检验:【两个样本平均值间差异及样本均值与总体差异】-检验两个原创 2017-11-17 22:17:19 · 18208 阅读 · 0 评论 -
R笔记之基础建模技术
1.有监督和无监督 2.误差极其来源 (1)系统误差和随机误差 (2) 因变量误差 (3) 自变量误差 3.数据划分和再抽样 数据划分:将一部分数据预留出来用于模型测试,只用另外的部分数据进行模型训练。 再抽样:重复从数据集中抽取样本并且在不同样本上拟合模型 ,以此得到关于拟合模型的信息。 为什么要对数据进行划分和再抽样? 为了避免过度拟合。原创 2018-01-12 23:14:57 · 274 阅读 · 0 评论 -
R语言笔记之模型评估度量
1.回归模型评估度量回归模型的表现度量方式: RMSE:均方误差平方根 校正R^2:对 原始R^2的改进 Cp:在训练集的RSS上加上惩罚 AIC和BIC:基于最大似然值,对参数进行惩罚2.分类模型评估度量分类是指对给定观测样本预测其所属类别,而且类别空间已知,它是有监督学习。> library(dplyr)> library(randomForest)> library(caret)原创 2018-01-13 17:02:47 · 6302 阅读 · 0 评论 -
R语言笔记之特征工程
1.特征构建(艺术成分最高)特征构建指的是从原始数据中人工地构建新的特征 它需要我们从原始数据中找出一些具有物理意义的特征2.特征提取它是一项用不同变量的组合代替原变量的技术 它的目的是自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义的特征。 下面是3个常用的对数据降维的特征提取方法 (1)主成分分析(PCA) (2)探索性因子分析(EFA) (3)高维标度化(MDS原创 2018-01-14 19:32:31 · 6303 阅读 · 0 评论 -
R语言笔记之线性回归及其衍生
普通线性回归1.最小二乘线性模型> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/SegData.csv")> dat=subset(dat,store_exp >0&online_exp >0)> modeldat=dat[,grep("Q",names(dat))]原创 2018-01-14 23:30:40 · 5464 阅读 · 1 评论 -
R语言笔记之线性回归及其衍生(续)
> library(lattice)Warning message:程辑包‘lattice’是用R版本3.4.3 来建造的 > library(caret)载入需要的程辑包:ggplot2Warning messages:1: 程辑包‘caret’是用R版本3.4.3 来建造的 2: 程辑包‘ggplot2’是用R版本3.4.3 来建造的 > library(dplyr)载入程辑包:原创 2018-01-15 11:43:58 · 2366 阅读 · 0 评论 -
R语言笔记之广义线性模型压缩方法1
glmnet包可以对一系列调优参数值同时计算参数估计。 该包可以用于线性回归,也可以拟合广义线性模型,如逻辑回归,多项式回归,泊松回归,cox回归。初始glmnet> install.packages("glmnet")trying URL 'https://cran.rstudio.com/bin/windows/contrib/3.4/glmnet_2.0-13.zip'Content t原创 2018-01-15 14:17:11 · 2393 阅读 · 0 评论 -
R语言笔记之广义线性模型压缩方法2
逻辑回归 1.普通逻辑回归 在逻辑回归中,当变量个数相对观测较大时,很容易发生完全分离或者准完全分离的现象,这时候没有唯一的极大似然估计,因此参数估计的方差极大。> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/sim1_da1.csv")> fit=glm(y~.,原创 2018-01-15 15:05:41 · 5225 阅读 · 5 评论 -
R语言笔记之数据科学算法总结
1.回归算法(Regression) a.一般最小二乘回归(Ordinary Least Squares) b.逻辑回归(Logistic Regression) c.自适应样条回归(Multivariate Adaptive Regression Splines,MARS) d.局部估计散点图平滑回归(Locally Estimated Scatterplot Smoothing,LOES原创 2018-01-15 15:25:19 · 1078 阅读 · 0 评论 -
R语言笔记——回顾小结(数据清洗,建模简单流程)
已经好久没有写博客了,今天来复习一下简单的建模流程以kaggle比赛的房价预测为例:(具体数据这里不给出,只说一下思路)里面所提供的数据较为干净,我们只需对数据进行简单的清洗(较为干净含义为,我们不需要自己手工提取相应变量字段等内容,如,之前某池比赛中关于某宝的一些购物数据,需要我们自己分离出有用的数据,此流程较为繁琐,当然,大致做法就是用python的pandas,或是sql语句,各种处理,各种...原创 2018-05-29 11:46:54 · 2199 阅读 · 0 评论 -
R语言笔记之装袋树和随机森林
装袋法优势:1.有效降低了预测的方差 2.具有更好的预测效能 3.可以提供内在的预测效能估计 装袋法局限: 1.计算量 2.解释性差 如何用R建立装袋树? 先得到自变量和因变量> library(caret)> library(pROC)> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScienti原创 2018-01-12 22:34:14 · 3125 阅读 · 0 评论 -
R语言笔记之树模型(回归树和决策树)
回归树过程:例:有10名学生,他们的身高分布如下: R1: 女生(7):156,167,165,163,160,170,160 R2: 男生(3):172,180,176 那么,落入R1的样本均值为163,落入R2的样本均值为176,那么对于新样本,如果是女生,树模型预测的身高是163,是男生,则为176. 那么如何划分出区域R1,R2(建造树模型)? 需要使用自上到下的贪婪算法—–递原创 2018-01-12 22:06:58 · 22905 阅读 · 5 评论 -
R语言笔记之树模型
本文来源于《北美数据科学家的私房课》树模型中几个重要定义词分类树(预测离散型结果的树),回归树(预测连续型结果的树),分裂点,根节点,叶节点,节点的度,树的度,修剪,树枝(子树),亲节点和子节点。 (本人乌鸦之作,大家了解分类过程就好,大伙稍安勿躁~) 其中长相—-根节点(分裂点),年龄和经济状况—–分裂点,小鲜肉所在的那些节点是终节点(叶子节点),长相节点的度为2(2条树枝),整颗树的度为原创 2018-01-12 20:27:24 · 863 阅读 · 0 评论 -
机器学习笔记之R语言6(抽样和假设检测(t检测1))
抽样和假设检测(t检测之单样本T检测)抽样抽样函数sample举例:> x=1:12#sample函数从x中随机抽出12个数> sample(x) [1] 3 1 2 6 10 11 8 9 4 5 12 7#replace表示抽取的数字是否可以重复,true为可以重复(抽样可以放回)> sample(x,replace=TRUE) [1] 12 11 7 12 3原创 2017-11-18 22:22:17 · 1167 阅读 · 0 评论 -
机器学习之R语言基础7(假设检验)
假设检验 -T检验 -F检验 -卡方检验 -正太性检验T检验2两样本的T检验 -有原始数据的独立两样本T检测 -有原始数据的配对T检测 实例如下: Wage 数据中大学学历的收入和中学一样吗? 其中大学取4.Colleage Grad 初中取 2.HS Grad独立两样本T检测#取包> library(ISLR)#取数据集> data(Wage)#取大学的收入> x原创 2017-11-19 14:30:32 · 1628 阅读 · 0 评论 -
机器学习笔记之R语言基础篇1
R中常规的统计运算> head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa原创 2017-11-14 22:10:29 · 644 阅读 · 0 评论 -
机器学习之R语言基础篇2(列联表大致内容)
今天呢,我们接着昨天的内容继续哈~~ 今天是鲁鲁酱第二次发博客,哈哈,木有昨天那样紧张了-_-,下面开始咯~ 列联表的创建 掌握以下三种方式即可> t1=data.frame(x1=c(1,2,3,4,5,6,7),x2=c(1,2,3,4,5,6,7))> t1 x1 x21 1 12 2 23 3 34 4 45 5 56 6 67 7 7原创 2017-11-15 21:23:51 · 6916 阅读 · 1 评论 -
机器学习笔记之R语言基础篇3(概率分布1)
接下来我们介绍概率分布好了,接下来我们开始吧!—-正太分布—- 概率密度函数 dnorm density 累积概率函数 pnorm probility1.概率密度函数及累积概率函数简单回顾— 在这里,F(x)是原分布函数,即为累计概率函数,f(x)是概率密度函数 如下图,其为正太分布的概率密度函数,f(x) 曲线f(x)与x轴间所覆盖的面积即为F(X),即为累计概率函数 2.r中原创 2017-11-16 16:08:07 · 2988 阅读 · 0 评论 -
机器学习笔记之R语言基础篇4
—-其他常见的概率分布1—- dbinom(k,n,m)用于计算二项分布概率 k是发生的次数,n是共次数,p是概率> dbinom(3,10,0.7)[1] 0.009001692卡方分布回顾 卡方分布的特征: 上图可以看出,自由度k值越大,其图像越接近正太分布的图像。 由上图可知,分布函数可由自由度和卡方值求得,则 自由度和分布函数(面积)可求出卡方值。 其中分布函数(面积)也原创 2017-11-16 22:21:44 · 2157 阅读 · 0 评论 -
R语言之数据预处理笔记
数据预处理是将 原始数据 转化成能够用于建模的一致数据的过程,它是分析流程中非常关键的一个环节!!!! 首先,载入需要的R包 caret :提供机器学习模型及拟合效果的系统交互界面 e1071:各类计量经济和机器学习的延伸,我们使用其中的naiveBayes函数进行朴素贝叶斯判别 gridExtra:绘图辅助功能,将不同图形组合在一起成为图表 lattice:建立在核心绘图能力上的格子框架原创 2017-12-14 23:30:29 · 23904 阅读 · 2 评论 -
R语言之数据预处理(下)
处理高度相关变量算法:1.计算自变量的相关系数矩阵 2.找出相关系数绝对值最大的那对自变量(a和b) 3.计算a和其他自变量相关系数的均值,对b也做同样操作 4.若a的平均相关系数更大,则将a移除,否则移除b 5,重复2-4,直到所有相关系数的绝对值都低于设定的阈值为止。#结果返回需要删除的列号,变量相关性在0.75左右,findCorrelation()为carat包中的函数> high原创 2017-12-15 13:57:05 · 2345 阅读 · 0 评论 -
R语言之数据操作
数据读写对离散变量,我们会观测变量各个层级观测的频数,或者使用两个变量的交叉表格,对离散变量绘制条形图等; 对连续变量,我们会看某个变量的均值,标准差,分位数等 此外,summary(),str(),describe(()等函数(psych包里)做义工数据框的总结。 以上即为一些最基础的方法,但这些方法灵活性不高,输出的信息也是固定的,这时我们需要对数据进行整形。 在整合和整形操作前,我们原创 2017-12-25 22:09:05 · 3827 阅读 · 0 评论 -
数据分析师养成之路——成长笔记1,计划
以后我会更新或添加以下内容:1.tableau的实战内容2.原创 2018-06-19 15:21:22 · 509 阅读 · 0 评论