- 博客(17)
- 收藏
- 关注
原创 PCA降维原理及sklearn代码实现
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。本文从实际问题代入探索PCA,尽量避免纯数学的推导,更简单明了地讲解PCA原理。1.数据的向量表示及降维问题的产生一般情况下,在数据挖掘和机器学习中,数据被表示为向量来进行处理,就拿我近期做的...
2019-03-08 11:42:55 5744 1
原创 ADF 单位根检验 Dickey-Fuller 迪基-福勒检验
名词解释:Dickey-Fuller 迪基-福勒检验, 单位根检验, 如果存在时序数据中存在单位根, 则表明是非平稳序列ADF检验 增广迪基-福勒检验 排除了自相关的影响为什么需要检验:单位根检验师时序序列分析的一个热点问题, 大部分时序模型都要求输入数据具有稳定性, 因此要先检测数据是否稳定.如果数据本身是不稳定的, 要对数据做差分变化等操作消除单位根, 此时目标值已经没有了实际含义, 但是满足模型需求, 结果在逆向推导.检验原理:时序回归方程: x_t = k *(x_t -1)
2021-02-04 12:27:53 7286
原创 从遗传算法走进TOPT的auto
1.简述遗传算法 元启发式算法(Meta-heuristic algorithms)模拟进化过程,通过选择(Selection)、交叉(Crossover)以及变异(Mutation)等机制,在每次迭代中都保留一组候选个体,重复此过程,种群经过若干代进化后,理想情况下其适应度达到***近似最优***的状态。参考链接:https://www.zhihu.com/question/23293449/answer/1202209742.核心概念将自变量空间编码成染色体,对应的实例称为个体,开始类似于随
2020-12-21 17:58:31 848
原创 Tsfresh 时序数据特征挖掘 特征算子简介
本篇介绍现有主要算子含义和使用注意是想基础算子简单复合算子一.本身无时序概念算子二.本身有时序概念算子复杂复合算子一些使用感悟和补充懂的都懂,下文算子基本按照源码顺序罗列.如果有其他关于tsfresh的问题,欢迎留言讨论,后续可能会再写tsfresh的其他系列文章.部分算子示例:github_jupyter_notenook基础算子1.sum_values(x)2.median(x)3.mean(x)4.length(x)5.standard_deviation(x) 标准差6.vari
2020-11-28 21:56:00 1725
原创 LIBSVM 下载使用及实战
1. LIBSVM 下载libsvm It makes everything automatic–from data scaling to parameter selection.libsvm下载安装后使用libsvm训练模型,出现 gnuplot executable not found此时需要安装gnuplot下载地址安装完成后,更改**gnuplot_exe =**的路径为你gnu...
2019-05-29 12:00:07 6531 1
转载 KPCA算法浅析
二者都是在PCA和LDA的基础上加入了核函数,从线性变化到非线性变化,因此建议先搞懂什么是PCA、LDA和核函数。KPCA我们先来看一个实际问题,图b是样本在二维空间中的分布,称为本真二维结构,然后以S形曲面嵌入到三维空间中,形成图a的空间结构,如果使用线性降维的方法,会丢失低维结构,得到一个图c这样的二维空间结构。面对上述问题,我们就不能采用传统的线性降维方法了,这时候就要使用我们的核主...
2019-04-03 13:45:17 6618 1
原创 高斯径向基函数(RBF)神经网络
高斯径向基函数(RBF)神经网络牛顿插值法-知乎泰勒公式径向基函数-wiki径向基网络之bp训练RBF网络逼近能力及其算法线性/非线性,使用”多项式“逼近非线性,通过调节超参数来改善多项式参数进一步拟合真实非线性。径向基函数说径向基网络之前,先聊下径向基函数径向基函数(英语:radial basis function,缩写为RBF)是一个取值仅依赖于到原点距离的实值函数,即 ϕ(x...
2019-04-03 00:53:52 33831 5
原创 PCA的劣势分析
PCA原理剖析矩阵的秩 特征向量 特征值是什么?此篇博客主要分析PCA有什么劣势以及产生的原因,对PCA还不清楚的可以结合上面两个博客从多角度深入了解PCA。劣势一,在对数据完全无知的情况下,PCA变换并不能得到较好的保留数据信息。因为PCA需要对数据进行预处理,第一步需要对其进行中心化,如果数据的尺度不统一,还需要标准化。通常的标准化方式是除以标准差。这里可能就出出现一个问题,比如标准差...
2019-03-25 16:22:14 11509
原创 机器学习中的kernel是什么?(待补充)
近来看到SVM和核化线性降维KPCA,对其中的核函数难以理解,因此去查阅了众多资料,接下来简单记录总结下对kernel的认识。知乎问题链接参考kernel是什么 ? 首先我们先给出kernel的定义:核函数(kernel function)就是指K(x,y)=<f(x),f(y)>,其中x和y是n维的输入值,f()指的是n维到m维的映射(通常m>>n),<x...
2019-03-21 17:08:48 9521
原创 产生式模型和判别式模型区分
近来看到贝叶斯分类器,其中有一个知识点提及产生式模型和判别式模型,查阅了一番资料终于理解透彻了,特此记录。产生式模型和判别式模型区分二者是分类器中常遇到的概念,产生式模型估计它们的联合概率分布P(x,y),判别式模型估计条件概率分布P(y|x)。判别式模型常见的主要有:Logistic RegressionSVMTraditional Neural NetworksNearest N...
2019-03-20 20:32:49 2748
原创 最近邻算法(KNN)
1.算法概述 目前,对于文本分类的研究已经取得了巨大的进展,常用的文本分类算法有最近邻算法(KNN),支持向量机,人工神经网络,boosting,随机森林等。而KNN算法既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。基于实例的学习方法:1.只是简单地把训练样例存储起来。等到输入一个新的查询实例时,才分析这个新实例和之前存储的实例之间的关系。**该...
2019-03-17 18:00:50 4660
原创 智能问答QA(内附项目实例)(待补充)
1.任务分类自然语言问题大致分为7类:1.事实类问题,适合基于知识图谱或文本生成问题对应的答案。2.是非类问题,适合基于知识图谱或常识知识库进行推理并生成问题对应的答案。3.定义类问题,适合基于知识图谱,词典或文本生成问题对应的答案。4.列表类问题,适合基于网络表格生成问题对应的答案。5.比较类问题,适合基于**&amp;amp;amp;lt;问题,答案&amp;amp;amp;gt;对**进行解答。6.意见类问题7.指导类问题...
2019-03-13 18:44:59 2826
原创 决策树原理详解及sklearn代码实例
1.决策树1.1基本流程决策树(decsioin tree)是一种常见的机器学习方法,例如西瓜书中的二分类任务,判断瓜的好坏。决策树如下:可以看到此使判断西瓜是否好坏,则通过色泽,根蒂,敲声等一些列属性来得出结果。 一般的,一颗决策树包括一个根节点,若干个内部接待你和若干个叶结点;叶节点对应于决策结果,其他结点则对应一个属性测试;从根节点大到每个叶结点的路径对应了一个判定测试序列。决策树...
2019-03-10 00:23:49 7391 2
原创 pandas.get_dummies 的使用及含义
get_dummies 是利用pandas实现one hot encode的方式。get_dummies参数如下:pandas.get_dummies(data,prefix = None,prefix_sep =’_’,dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )data :...
2019-03-08 21:40:17 11211
原创 pandas中的Series和DataFrame的区别与转化
1.series数据类型1. Series相当于数组numpy.array类似Series 它是有索引,如果我们未指定索引,则是以数字自动生成。obj=Series([4,7,-5,3]) print obj#输出结果如下:0 41 72 -53 3如果数据被存在一个python字典中,也可以直接通过这个字典来创建Series.sdata{'Ohio'...
2019-03-07 23:17:06 15956 1
转载 全连接层计算分解
1*1卷积和全连接层的区别1.全连接层全连接层的输入是一维数组,多维数组需先进行Flatten进行一维化处理,然后连接全连接层。全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。全连接图结构如下。其中,x1、x2、x3为全连接层的输入,a1、a2、a3为输出,有全连接层参数计算权值参数=输入一维数组大小*全连...
2019-03-07 12:51:07 19154
原创 深度学习中卷积计算以及1*1卷积核作用
深度学习中1*1卷积核作用看图理解! 以上是用一个773的数组作为输入,然后神经元中卷积核大小为333,数量为2,输出的特征图大小为332卷积:一组固定的权重和不同窗口内数据做内积卷积的计算—&gt; 每次选取输入数据一层的一个窗口然后和对应深度层的神经元的卷积核进行矩阵内积计算,最后将所有的计算结果与偏置项b相加后输出 !卷积计算时可以有多个神经元,神经元的个数对应卷积层的输...
2019-03-07 12:25:57 3845
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人