2019年06月_满腹的小不甘

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创模型参数优化（四）：交叉验证、网格搜索

1.交叉验证1.1 基本概念交叉验证的基本思想是将数据集分割成N份，依次使用其中1份作为测试集，其他N1份整合到一起作为训练集，将训练好的模型用于测试集上，以得到模型好坏的判断或估计值，可以得到N个这样的值。交叉验证通常用于估计模型的误差，这里将N个对应的误差求平均作为对模型误差的估计。也可以根据这N个值，选岀拟合效果最好的模型，对应模型的参数也被认为是最优或接近最优的，因此...

2019-06-25 17:37:40 3508

原创模型参数优化（三）：模拟退火

1. 基本概念补充。。。2. 实现步骤3. 代码实现

2019-06-25 17:30:03 1754

原创模型参数优化（二）：粒子群优化

1. 基本概念粒子群优化，又称微粒群算法，来源于对—个简化社会模型的模拟，主要用于求解优化问题。粒子群优化算法是 Kennedy和 Eberhart受人工生命硏究结果的启发，通过模拟鸟群觅食过程中的迁徙和群聚行为而提出的一种基于群体智能的全局随机搜索算法。与遗传算法一样，它也是基于“种群”和“进化”的概念，通过个体间的协作与竞争，实现复杂空间最优解的搜索。但是，...

2019-06-25 17:27:45 3283

原创模型参数优化（一）：遗传算法

参数是指算法中的未知数，有的需要人为指定，比如神经网络算法中的学习效率，有的是从数据中拟合而来，比如线性回归中的系数，如此等等。在使用选定算法进行建模时，设定或得到的参数很可能不是最优或接近最优的，这时需要对参数进行优化以得到更优的预测模型。常用的参数优化方法主要包括交叉验证、网格搜索、遗传算法、粒子群优化、模拟退火，本节介绍遗传算法。遗传算法实质：选定一批最佳参数，...

2019-06-25 15:57:39 27110 1

转载 R语言笔记-sample()函数

在医学统计学或者流行病学里的现场调查、样本选择经常会提到一个词：随机抽样。随机抽样是为了保证各比较组之间均衡性的一个很重要的方法。那么今天介绍的第一个函数就是用于抽样的函数sample：> x=1:10> sample(x=x) [1] 3 5 9 6 10 7 2 1 8 4第一行代码表示给x向量赋值1~10，第二行代码表示对x向量进行随机抽样。结...

2019-06-25 14:10:35 22631 3

原创知识图谱简介

1. 什么是知识图谱知识图谱的概念是由谷歌公司于2012年5月17日首次提出，旨在描述客观世界的概念、实体、事件及其之间的关系，并作为构建下一代智能化搜索引擎的核心基础。通俗地讲，知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。一个简单的知识图谱如下图所示。 ...

2019-06-25 08:55:19 42467 2

原创特征工程（2）：特征构建

特征的构建与选取在提高预测精度方面越来越受到重视，甚至影响到预测项目的成败。通常初始特征是基于领域经验构建的，比如在预测短期负荷的时候，一般会考虑节假日、气温、历史负荷水平等因素来构建特征。然而这样得到的特征未必能够充分地描述目标变量，因此很有必要基于这些初始特征构建更多更强的特征，从而尽可能地提高预测精度。最近几年这方面的研究也不少，百度等科技巨头企业已经有成熟...

2019-06-20 16:10:22 1353

原创特征工程（1）：特征提取、特征构建、特征选择的区别

特征对于预测而言是相当重要的，在预测建模之前的大部分工作都是在寻找特征，没有合适特征的预测模型，就几乎等于瞎猜，对预测目标而言没冇任何意义。特征通常是指输入数据中对因变量的影响比较明显的有趣变量或属性。常见的特征提取、特征构建、特征选择三个概念有着本质不同：（1）特征提取：是指通过函数映射从原始特征中提取新特征的过程，假设有个原始特征(或属性)表...

2019-06-20 16:07:49 10708 1

原创聚类算法（2）：系统聚类/层次聚类算法

层次聚类：自下而上法（bottom-up）和自上而下法（top-down）聚类算法(4)--Hierarchical clustering层次聚类系统聚类：相当于自下而上法，也就是层次聚类目录一、系统聚类 1. 系统聚类实现的一般步骤2. 常用的距离3. 类间距离二、手动实现过程三、代码实现1. R语言2. Python代码一、...

2019-06-20 15:23:30 25446 2

原创聚类算法（1）：K-Means算法

聚类分析，简单的说，就是对数据分群，它以相似性为基础，相同类中的样本比不同类中的本更具相似性。在商业应用中，聚类通常用来划分用户群，然后分别加以研究。另外，它还可以挖掘数据中潜在的模式，基于此改进业务流程或设计新产品等。常见的聚类算法有k- Means算法、系统聚类算法，下面将依次介绍。目录1. K-Means算法（1）用于衡量好的标准（2）K- Means实现的...

2019-06-20 15:07:44 1599 1

转载 R语言：plot()函数参数合集

参考：R语言基础备忘-plot()详解最近用R语言画图，plot 函数是用的最多的函数，而他的参数非常繁多，由此总结一下，以供后续方便查阅。plot(x, y = NULL, type = "p", xlim = NULL, ylim = NULL, log = "", main = NULL, sub = NULL, xlab = NULL, ylab = NULL,ann = par...

2019-06-20 14:07:20 9696

原创时间序列预测之三：频谱分析（二）

关于谱分析的内容，参考我的另一篇文章：时间序列预测：谱分析1. 简介由傅里叶理论可知，时域中的任何信号都可以由一个或多个具有适当频率、幅度和相位的正弦波叠加而成。也就是说，任何时域信号都可以变换成相应的频域信号，通过频域测量可以得到信号在某个特定频率上的能量值。频谱分析就是在频域上分析时间序列的方法，它使用傅里叶分析方法，将时域信号转换到频域，并从频域中找出信号频谱的变化规...

2019-06-19 15:30:11 14665 1

原创 R语言：绘图函数

不断补充。。。plot()和points()区别：plot是高级作图函数，points是低级作图函数，通常是先用高级作图函数把图的框架定下来，然后用低级作图函数对已有的框架进行修饰。plot()：points()：R语言低级绘图函数-pointshttps://www.cnblogs.com/xudongliang/tag/R%E8%AF%AD%E8%A8%80/defau...

2019-06-19 14:43:48 2563

原创时间序列预测分析方法（一）：相关分析

针对特定的预测问题，只是拥有数据还不够，想要从纷繁复杂的数据关系中挖掘出可用于预测的规律或模式，还得运用恰当的分析方法。比如聚类分析，恰当地选择聚类算法，可以按维度将数据适当地分群，根据各类的特征制订营销计划或决策，抑或是根据各类不冋规律建立起更有针对性的预测模型；还有常用的关联分析，可以从事物的历史数据中挖掘出变化规律有指导性地对未来进行预测，如此等等。本内容将分别介绍常用的分析...

2019-06-18 14:35:11 31851 3

原创预测方法论：预测流程

编辑中。。。预测是个复杂的过程，需要不同角色的人参与，因此，制订用于指导预测工作开展的流程至关重要。预测基本流程参照了 CRISP-DM标准过程及数据分析的常见步骤，按照笔者从事预测工作多年的经验整合而成，详见下图。从确定预测主题开始，依次进行收集数据、选择方法分析规律、建立模型、评估效果直到发布模型。需要注意的是选择方法和分析规律之间是可逆箭头，如果没找到...

2019-06-17 16:52:33 1628

原创 R语言：预测算法常用包总结

R语言用于预测的算法常见包总结如下：

2019-06-17 16:34:16 2776

转载 R语言：summary()函数解读

summary()：获取描述性统计量，可以提供最小值、最大值、四分位数和数值型变量的均值，以及因子向量和逻辑型向量的频数统计等。结果解读如下：1. 调用：Call2. 残差统计量：Residuals3. 系数：Coefficients4. Multiple R-squared和Adjusted R-squared5. F-statistic1. 调用：C...

2019-06-17 16:08:54 119522 13

原创 R语言：常用函数总结

1.range()函数：返回一个向量，该向量包含给定参数的最大值和最小值。range(..., na.rm = FALSE, finite = FALSE)参数... 任意数值型或字符型对象 na.rm NA值被丢弃 finite 把不是有限的元素丢弃 2. cooks.distance()：异常点诊断（...

2019-06-16 16:30:10 3225

原创时间序列预测之三：谱分析（一）

关于谱分析的内容，一起参考我的另一篇文章：时间序列预测分析方法（二）：频谱分析1. 简介1.1 什么是谱分析？谱分析，是将时间序列用正弦和余弦的线性组合进行建模的思想，提供了非常容易地发现“隐藏”周期性的工具。历史上，谱分析是从寻找时间序列数据里“隐藏的周期性”开始的。时间序列的相关性质，常称作时间域上的分析。在对时间序列的频率性质进行分析时，我们称为在...

2019-06-12 10:05:21 20645 3

转载 R语言：na.fail和na.omit

实际工作中，数据集很少是完整的，许多情况下样本中都会包括若干缺失值NA，这在进行数据分析和挖掘时比较麻烦。R语言通过na.fail和na.omit可以很好地处理样本中的缺失值。na.fail（<向量a>）: 如果向量a内包括至少1个NA，则返回错误；如果不包括任何NA，则返回原有向量a na.omit（<向量a>）: 返回删除NA后的向量a att...

2019-06-10 11:32:45 20920

原创 R语言：cbind()和rbind()

可以利用函数cbind() 和rbind() 把向量和矩阵拼成一个新的矩阵。概略地说，cbind() 把矩阵横向合并成一个大矩阵（列方式），而rbind()是纵向合并（行方式）。cbind：根据列进行合并，即叠加所有列，m列的矩阵与n列的矩阵cbind()最后变成m+n列，合并前提：cbind(a, b)中矩阵a、b的行数必需相符 rbind：根据行进行合并，就是行的叠加，...

2019-06-10 11:28:57 77135

原创 R语言：rep函数解析

函数形式：rep(x, time = , length = , each = ,)参数说明：x：代表的是你要进行复制的对象，可以是一个向量或者是一个因子。 times：代表的是复制的次数，只能为正数。负数以及NA值都会为错误值。复制是指的是对整个向量进行复制。 each：代表的是对向量中的每个元素进行复制的次数。 length.out：代表的是最终输出向量的长度。示例：r...

2019-06-10 11:11:44 106421 1

原创时间序列预测之二：灰色模型

目录1、简介（1）常见系统分类（2）灰色预测法2. 灰色生成数列（1）累加生成（AGO）（2）累减生成(IAGO)（3）加权邻值生成3. 灰色模型GM(1,1)4. 检验预测值（1）残差检验：计算相对残差（2）级比偏差值检验：计算1、简介灰色模型（Gray Model），常用来对数据进行预测。灰色预测是针对灰色系统所做的预测。...

2019-06-06 17:16:27 20739 1

原创 R语言：expand.grid() 函数解析

expand.grid() 构造一个数据框，将各参数的各水平完全搭配。示例： type=c("A", "M") trend=c("N","A", "M") seasonal=c("N","A","M") hw_grid <- expand.grid(type,trend,seasonal) print(hw_grid) ...

2019-06-06 11:16:21 15261

原创 R语言：paste函数解析

paste函数 paste (..., sep = " ", collapse = NULL) paste0(..., collapse = NULL)参数说明：...-表示要组合的任何数量的参数。 sep-表示参数之间的分隔符。它是任选的。 collapse-用于消除两个字符串之间的空间。但不是在一个字符串的两个词的空间。 p...

2019-06-06 10:56:44 10897

原创 R语言：时间序列常用函数

时序分析会用到的函数函数程序包用途 ts() stats 生成时序对象 plot() graphics 画出时间序列的折线图 start() stats 返回时间序列的开始时间 end() stats 返回时间序列的结束时间 frequency() stats 返回时间序列中时间点的个数 win...

2019-06-06 10:36:26 6264

转载时间序列预测之一：指数平滑法（二）R语言——代码实现

参考：https://www.cnblogs.com/fengzzi/p/10044426.html指数模型是用来预测时序未来值的最常用模型。这类模型相对比较简单，但是实践证明它们的短期预测能力较好。不同指数模型建模时选用的因子可能不同。比如单指数模型（simple/single exponential model）拟合的是只有常数水平项和时间点i处随机项的时间序列，这时认为时间序列不...

2019-06-06 10:34:31 10802 1

原创时间序列预测之一：指数平滑法（一）理论

目录1. 基础知识2. 简单滑动平均（rolling mean）3. 指数平均(EXPMA)3.1 一阶指数平滑3.2 二次指数平滑3.3 三次指数平滑预测4. 二次指数平滑法实例分析指数平滑法，用于中短期经济发展趋势预测。全期平均法：简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用；移动平均法：移动平均法则不考虑较远期...

2019-06-05 17:30:17 26458 2

原创 R语言：ts() 时间序列的建立

ts() 函数：通过一向量或者矩阵创建一个一元的或多元的时间序列（time series），为ts型对象。调用格式： ts(data = NA, start = 1, end = numeric(0), frequency = 1, deltat = 1, ts.eps = getOption("ts.eps"), class, names)说明：...

2019-06-05 15:16:09 54053 6

转载 R语言：异常数据处理

前言在数据处理中，尤其在作函数拟合时，异常点的出现不仅会很大程度的改变函数拟合的效果，而且有时还会使得函数的梯度出现奇异梯度，这就导致算法的终止，从而影响研究变量之间的函数关系。为了有效的避免这些异常点造成的损失，我们需要采取一定的方法对其进行处理，而处理的第一步便是找到异常点在数据中的位置。什么是异常值？如何检测异常值？目录 1. 单变量异常值检测 2. 使用LOF（...

2019-06-05 14:36:42 7386

转载 TCN-时间卷积网络

目录一、引言二、时序卷积神经网络2.1 因果卷积（Causal Convolution）2.2 膨胀卷积（Dilated Convolution）2.3 残差链接（Residual Connections）三、讨论和总结1. TCN的优点2. TCN的缺点参考论文：An Empirical Evaluation of Generic Convolutional ...

2019-06-03 14:42:01 85791 14

原创时间序列预测：Prophet模型

目录1. 简介2. 适用条件3. 安装教程4. 使用详解5. 参考内容1. 简介 Prophet是FaceBook开源的时序框架，目前支持R语言和python语言。托管在github上。 Prophet的原理是分析各种时间序列特征：周期性、趋势性、节假日效应，以及部分异常值。Prophet充分的将业务背景知识和统计知识融合起来，它让我们可...

2019-06-03 11:33:14 2780