littlely_ll-CSDN博客

翻译 7. train的模型标签

7. train的模型标签下面是基本的模型类型或相关特征的列表。整个列表的内容是有争议的。例如，随机森林理论上使用特征选择，支持支持向量机可能不能有效地使用L2正则化等。内容： Accepts Case Weights Bagging Bayesian Model Binary Predictors Only Boosting Categorical Predictors Only

2017-03-27 17:03:58 2044

翻译 6. 可用模型(The caret package )

6. 可用模型下列模型在trrain函数中可以使用，代码可以使用getModelInfo获得，或去github repository共233个。

2017-03-23 13:39:00 2154 1

翻译 5. 模型训练和调参（The caret package）

5. 模型训练和调参内容： Model Training and Parameter Tuning An Example Basic Parameter Tuning Notes on Reproducibility Customizing the Tuning Process Pre-Processing Options Alternate Tuning Grid

2017-03-22 16:56:08 17501 1

翻译 4. 数据分割（The caret package）

4. 数据分割内容： * 基于输出结果的简单分割 * 基于特征变量的分割 * 时间序列的数据分割4.1 基于输出结果的简单分割createDataPartition函数用于创建平衡数据的分割。如果函数中的参数y是一个因子向量，则对每一类随机抽样，并且保持数据整体类别的分类。例如：对iris数据按照80/20%的比例分割：library(caret)set.seed(3456)trai

2017-03-05 14:41:11 3152

翻译 3. 预处理(The caret package)

3. 预处理创建虚拟变量零方差和近似零方差特征变量识别相关的特征变量线性相关性preProcess函数中心化和标准化插补特征变量变换整合在一起类别距离计算caret包含很多函数来对特征变量进行预处理，它假设所有的数据为数值型数据（例如：因子变量通过model.matrix,dummyVars或其他方法转化为虚拟变量）。3.1 创建虚拟变量‘dummyVars’函数可以由一个或多

2017-03-02 14:39:32 3889

翻译 2. 可视化(The caret package)

2. 可视化featurPlot是对lattice包作图的一个包装。例如：下列图表展示了用featurePlot函数画出的连续变量结果的图形。对于分类的数据集可用iris数据来分析。 str(iris)## 'data.frame': 150 obs. of 5 variables:## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.

2017-02-28 14:58:47 3230

译者话：博主正在学习caret包，觉得这个包对于学机器学习的人来说是必不可少的，它具有统一的模式或流程对模型进行处理、训练。caret包参数众多，而且有的函数还依赖于其他的包，这对于学习有一定的困难，不过有一篇技术文档专门介绍了caret包的使用，包括预处理、可视化、模型训练和调参等，但是直到现在我也没见有中文版介绍caret包的。今日突发感想，想把The caret package的文档翻译出来，

2017-02-28 13:26:16 6139

原创 python scipy和scikit-learn包的安装

众所周知，python中一些包的安装最简单的方法就是pip install或easy_install，但这些方法也有失灵的时候，今天我安装scipy和scikit-learn的时候总是出现错误，在网上找了许多方法，但大部分非常麻烦，有的还要设置环境的什么的，我也最讨厌复杂安装的东西，不过在stackoverflow中找到了一个比较简便的方法，就是先从python扩展库下载好文件，然后再pip ins

2017-02-24 22:17:30 1286

原创 R语言并行运算(snow包)

snow包snow包主要运行于传统的集群计算。它主要用于蒙特卡洛模拟（Monte Carlo simulations），boostrapping，交叉验证（cross validation），集成机器学习算法（ensemble machine learning algorithms）和K均值聚类（K-Means clustering）等，并且也很好支持并行随机数的生成。 snow包的安装一般应用i

2017-02-08 18:01:06 8505

原创 stringr包介绍

1. case用法：str_to_upper(string, locale = "")str_to_lower(string, locale = "")str_to_title(string, locale = "")string为要处理的字符串；locale为要翻译的...。> dog > str_to_upper(dog)[1] "THE QUICK BROWN DOG">

2017-02-04 21:27:15 1323

原创 dplyr包介绍

1. arrange用法：按照变量管理行。arrange(.data, ...)data为要处理的列；...为要按照某变量排列，默认为升序排列。arrange(mtcars, cyl,disp) ##按照变量cyl, disp排序> arrange(mtcars, cyl,disp) ##按照变量cyl, disp排序 mpg cyl disp hp drat wt qs...

2017-02-04 21:27:12 534

原创 tidyr之gather、separate、spread…

使用tidyr的时候也有可能需要dplyr包。gather的用法： gather(data, key, value, ..., na.rm = FALSE, convert = FALSE,factor_key = FALSE)data为要处理的数据，key为新创建的变量，value为创建变量下的数值。...为列的设定，比如下面的例子创建变量stock，而不需要把time变成变量下的数值，则用...

2017-02-04 21:27:09 5379

原创向量自回归与结构向量误差修正模型

（一）在R软件中，使用vars包来进行VAR、SVAR和SVECM的建模。首先列出函数的使用。 1.VAR模型 VAR（y, p=1, type=c("const","trend", "both", "none"), season=NULL， exogen=NULL, lag.max=NULL,ic=c("AIC", "HQ", "SC", "FPE"))y是一个数据矩阵；p为

2017-02-04 21:27:06 10394 2

原创朴素贝叶斯分类

朴素贝叶斯算法描述应用贝叶斯定理进行分类的一个简单应用。优点：简单、快速、有效；能处理好噪声数据和缺失数据；需要用来训练的例子相对较少，但同样能处理好大量的例子；很容易获得一个预测的估计概率值。缺点：依赖于一个常用的错误假设，即一样的重要性和独立特征；应用在含有大量数值特征的数据集时并不理想；概率的估计值相对于预测的类而言更加不可靠。贝叶斯分类器已应用于以下方面：文本分类；在计算

2017-02-04 21:27:00 1084 6

原创懒惰学习——使用近邻分类（KNN）

KNN算法优点：简单有效；对数据的分布没有要求；训练阶段很快。缺点：不产生模型，在发现特征之间的关系上的能力有限；分类阶段很慢；需要大量的内存；名义变量（特征）和缺失数据需要额外处理。之所以被称为懒惰学习算法，是因为从技术上说，没有抽象化的步骤。抽象过程与一般过程都被跳跃过去了。由于高度依赖训练案例，所以懒惰学习又称为机械学习。机械学习不会建立一个模型，所以该方法被归类为非参数学习方法

2017-02-04 21:26:55 5187

原创文本挖掘——词云图的操作

弄了两天，今天看了一篇博文才有点搞的明白，第一天看了Rwordseg包，这个包可把我整惨了，安装它都使出吃奶的劲了，我怎么觉得还没安装到位。如果想安装的话请参考《Rwordseg使用说明》，李舰写的，也是个大牛。比较详细介绍了Rwordseg的使用。第二天看了第二篇文章《玩玩文本挖掘-wordcloud、主题模型与文本分类》，这个家伙也不好看，讲的啰里啰嗦的。用个简单的例子就行了呗，非得用个复杂的

2017-02-04 21:26:52 9255

原创 R软件图形参数的设置

在R中，设置图形参数是使用par()函数，其中有必须在par里设置的1.坐标系参数 cexcex=cex_type, #绘图符号大小，1是正常大小cex.axis=1.1, #坐标轴刻度数字大小cex.lab=1.2, #坐标轴标签大小cex.main=1.4, #标题文字大小cex.sub=1.3, #副标题文字大小font.axis=

2017-02-04 21:26:50 3121

原创单方程误差修正模型案例分析

># 单方程误差修正模型案例分析> ###########################> # 数据的生成> set.seed(12345)> u<-rnorm(500)> x<-cumsum(u)> y<-x+u> # E-G协整估计及检验> model.lm<-lm(y~x)> summary(model.lm)Call:lm(formula = y ~ x)Re

2017-02-04 21:26:42 4959 1

原创单位根检验、协整检验和格兰杰因果…

实证检验步骤：先做单位根检验，看变量序列是否平稳序列，若平稳，可构造回归模型等经典计量经济学模型；若非平稳，进行差分，当进行到第i次差分时序列平稳，则服从i阶单整（注意趋势、截距不同情况选择，根据P值和原假设判定）。若所有检验序列均服从同阶单整，可构造VAR模型，做协整检验（注意滞后期的选择），判断模型内部变量间是否存在协整关系，即是否存在长期均衡关系。如果有，则可以构造VEC模型或者进行Gran

2017-02-04 21:26:40 34922 1

原创移动平均和指数平滑

（1）简单移动平均移动平均在TTR包中简单移动平均 SMA(x, n = 10, ...)指数移动平均 EMA(x, n = 10, wilder = FALSE, ratio = NULL,...) For EMA,wilder=FALSE (the default) uses an exponential smoothing ratio of2/(n+1),

2017-02-04 21:26:37 3017

原创 ARCH模型和GARCH模型

（1）基于ARCH（1）模型模拟生成收益序列，残差序列和波动率序列library(fGarch)set.seed(1234)#模型的设定spec_1#模型的模拟simdata_1<-garchSim(spec_1,n=200,extended=T)plot(simdata_1)par(mfrow=c(1,3))acf(simdata

2017-02-04 21:26:31 22605

原创季节趋势分解

wx #必须转化为时间序列格式（1）用stl函数直接做季节分解bstlplot(bstl)（2）用HoltWinters函数做指数平滑或季节分解（这里趋势和水平结合起来相当于stl中的趋势项）(bHolt-Winters exponential smoothing with trend and additiveseasonal component.Call:Holt

2017-02-04 21:26:28 4919

原创 R软件中数据的排序

y<-data.frame(number=c(2,7,2,5,2,6),age=c(22,31,23,34,22,41),weight=c(128,170,165,133,152,110))y number age weight1 2 22 1282 7 31 1703 2 23 1654 5 34 13...

2017-02-04 21:26:26 3284

原创在R中把多条曲线放置在一张图中

>library(xlsx)>myield>head(myield) time X3m X6m X1y X2y X3y X4y1 2002.010.019889 0.020353 0.021264 0.023014 0.024670 0.0262322 2002.020.020781 0.021131 0.0218

2017-02-04 21:26:17 35216

原创 R语言实战笔记

par(no.readonly=TRUE) 修改当前图形参数，会话结束前一直有效。符号与线条：pch 绘制点时使用的符号；cex 符号大小；lty 线条类型；ldy 线条宽度legend 图例标签基本图形：条形图：barplot(height, width = 1, space = NULL, names.arg = NULL, legend.text = NULL,

2017-02-04 21:26:14 3598

原创独立抽样（MCMC方法）

（一）独立抽样code# simulationswaisyxmmu.betasigma.betaprop.sbetaacc.probcurrent.betafor(t in 1:m){ prop.betacur.eta prop.etaloga u u if(ucurrent.betaacc.prob }

2017-02-04 21:26:12 1384

原创 R软件中数据的输入与输出

（一）数据的输入在R软件中，数据有多种输入方式（1）csv格式csv是一种逗号分隔的纯文本文件，在R中可以用read.table()来读取例：read.table(file,header=FALSE,sep=“”)其和read.csv()读取数据形式相似read.csv(file,header=TRUE,sep=“,”)csv格式文件在R中比较容易读取，但是数据量大时读取速度非常

2017-02-04 21:25:56 10606

原创牛顿、拟牛顿法以及其他优化方法的R实现

\quad牛顿法（Newton method）和拟牛顿法（quasi Newton method）是求解无约束最优化问题的常用方法，有收敛速度快的优点。1. 牛顿法考虑无约束最优化问题 minx∈Rnf(x)min_{x\in R^n} f(x) 其中x∗x^*为目标函数极小点。假设f(x)f(x)有二阶连续偏导数，若第k次迭代值为x(k)x^{(k)},则可将f(x)f(x)在x(k)x^

2017-02-04 14:04:52 10035 3

原创《机器学习实战》logistic回归

《机器学习实战》K近邻(KNN)分类《机器学习实战》决策树《机器学习实战》朴素贝叶斯（Naive Bayes）分类 \quad上一章学习了朴素贝叶斯分类器，贝叶斯分类器在文本分类方面表现很好，贝叶斯分类器是基于概率的分类器，而本章的logistic回归也可以说是基于概率的分类，虽然其名为带“回归”两字，其实是一种分类器。Logistic回归采用的是sigmoid函数，其取值在0~1之间。在分类

2017-01-23 21:44:31 412

原创《机器学习实战》朴素贝叶斯（Naive Bayes）分类

1. 《机器学习实战》K近邻(KNN)分类 2. 《机器学习实战》决策树 \quad对于朴素贝叶斯理论分析可看朴素贝叶斯法及其R实现，对于这篇的R实现，只是在这种特殊情况，对于一般的情况并没有实现，所以，本篇文章使用python实现朴素贝叶斯分类的一般方法，并对垃圾邮件进行分类。##word list vector functiondef loadDataSet(): posti

2017-01-20 11:47:16 1003

原创《机器学习实战》决策树

《机器学习实战》K近邻（KNN）分类上一章写了K近邻分类（见上链接），本章将学习决策树的python实现，虽然K近邻在大多数的时候工作很好，但是没有一个直观的认识，而决策树可以将分类视觉化，使人们对其分类一目了然，当然，对于大型的决策树还是很难进行阅读的。本次的实现决策树只生成树，画出树图，不剪枝。python实现决策树##function to calculate the S

2017-01-10 20:43:30 327

原创《机器学习实战》K近邻(KNN)分类

R与Python在机器学习中的比较\quad最近开始用python实现机器学习算法，通过对比R与python实现机器学习算法，本人发现，用python实现算法比R实现算法更好理解。使用python能让你理解算法的每一步是怎样做的，而在R中，只有一个实现算法的函数和其中要设置的参数，虽然只要理解机器学习算法的内容就能知道参数所代表的含义进而设置其中的参数，但是R中的计算就像一个黑盒子，不知道过程是怎样

2017-01-09 16:49:23 500

原创决策树（二）

分类与回归树（CART）CART树由特征选择、树的生成及树的剪枝组成，可用于分类，也可用于回归。CART假设决策树是二叉树，内部节点特征取值为“是”和“否”。CART算法由以下两步组成：（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。最小二乘回归树生成算法输

2017-01-05 17:26:03 886

原创单位根检验、协整检验和格兰杰因果检验三者之间的关系

实证检验步骤\quad先做单位根检验，看变量序列是否平稳序列，若平稳，可构造回归模型等经典计量经济学模型；若非平稳，进行差分，当进行到第i次差分时序列平稳，则服从i阶单整（注意趋势、截距不同情况选择，根据P值和原假设判定）。若所有检验序列均服从同阶单整，可构造VAR模型，做协整检验（注意滞后期的选择），判断模型内部变量间是否存在协整关系，即是否存在长期均衡关系。如果有，则可以构造VEC模型或者进行G

2017-01-05 11:44:36 53494 8

原创 R语言二次规划之quadprog包

二次规划二次规划是非线性规划中一类特殊的数学规划问题，在如投资组合、约束最小二乘问题中都有应用。二次规划已经成为运筹学，经济数学，管理科学和组合优化科学的基本方法。二次规划的一般形式： minxq(x)=12xTDx−dTx+cs.t.ATx≥b0min_{x}\quad q(x)=\frac{1}{2}x^TDx-d^Tx+c\\s.t. \quad A^Tx\ge b_0 其中，x为向

2016-12-30 22:04:31 14478 4

原创 python小函数（一）

1. shape函数numpy模块 shape(a) - a: 数组np.shape(np.eye(3)) ## 返回结果 (3L, 3L)np.shape([[1, 2]]) ## 返回结果(1L, 2L)np.shape([0]) ##返回元组## (1L,)shape(0) ##返回空元组## ()a = array([[3,4,5],[6,3,6]

2016-12-28 15:14:31 913

原创递归函数及其R实现

今天看了几个递归的小例子，觉得不错，自己就试着写了两个。先看看斐波那契数列： fibs <- function(n){ if(n==1 | n==2){ return(1) } else{ return(fibs(n-1)+fibs(n-2)) } } fibs(6) ##得到8打印前20个: for(i in 1:20

2016-12-27 21:56:33 9658

原创长城评论词云分析

最近《长城》这部电影很火，争议也很大，我根据豆瓣底部的点评来分析这部电影在观众眼中是怎样的。此为长城短评链接。下面给出代码：library(XML)library(RCurl)library(stringr)library(Rwordseg)library(tm)library(wordcloud2)library(wordcloud)url <- "https://movie

2016-12-24 22:20:43 588

原创决策树（一）

1. 特征选择1.1 信息增益熵（entropy）是表示随机变量不确定性的度量，设x是一个取有限个值的离散随机变量，其概率分布为： P(X=xi)=pi,i=1,2,⋯,nP(X=x_i)=p_i,i=1,2,\cdots,n 则随机变量X的熵定义为 H(X)=−∑i=1npilogpiH(X)=-\sum_{i=1}^np_ilog p_i 熵只依赖于X的分布，与X的取值无关，所

2016-12-22 16:54:27 546

原创 K近邻法算法（KNN）及其R实现

1. K近邻算法输入：训练数据集 T={(x1,y1),(x2,y2),⋯,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\} 其中，xi∈χ⊆Rnx_i \in \chi \subseteq R^n为实例的特征向量，yi∈Y={c1,c2,⋯,cK}y_i\in Y=\{c_1,c_2,\cdots,c_K\}为实例的类别，i=1,2,⋯,N;

2016-12-21 20:50:51 9198

big data(大数据）

OpenCV_with_Python_By_Example

Data Structures and Algorithms with Python

Likelihood Bayesian and MCMC Methods in Quantitative Genetics

Data Mining. Practical Machine Learning Tools and Techniques

c语言控制台输出中文乱码问题

非法类型开始与标识符