自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Y_hero的博客

迷茫的少年

  • 博客(50)
  • 收藏
  • 关注

原创 PCA降维原理及sklearn代码实现

PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。本文从实际问题代入探索PCA,尽量避免纯数学的推导,更简单明了地讲解PCA原理。1.数据的向量表示及降维问题的产生一般情况下,在数据挖掘和机器学习中,数据被表示为向量来进行处理,就拿我近期做的...

2019-03-08 11:42:55 5684 1

原创 毕业论文怎么选题?利器推荐

你是不是在为怎么选题而烦恼?你是不是还为选不到好题目而愁畅?你是不是在为题目太多犯了选择焦虑症?论文选题工具来帮你忙,这些都是知网中出现过的论文题目,但是题目一样,内容不一样是没有问题.这里课堂英雄推荐一个选题神器:http://xuanti.cqvip.com/第一步: 我们输入我们想做的关键词以及论文类型,如下图打开百度APP看高清图片第二步: 进一步选择题目关键词,从可选题目中选择合适的题目作为备选PS:记住多选几个备用,如果老师偷懒型,请选择三个让他确定一个,老师是较真型,请准

2021-11-04 14:20:31 700

原创 毕业答辩的流程是什么

为了更高质量的完成论文答辩,我们需要明确掌握论文答辩程序。这里我们简单介绍一下论文答辩程序。一、答辩工作程序  1、答辩工作分为小组答辩、系级答辩和院级答辩三个级别。所有具备答辩资格的学生必须参加小组答辩,不少于5%的学生参加系级答辩,3%左右的学生参加院级答辩(随机抽查)。  2、各系成立若干答辩小组。答辩小组由3名讲师(含)以上职称的指导教师和1名秘书组成,设组长1名。组长负责排定答辩次序、组织学生答辩、拟定答辩评语、评定答辩成绩,并报系汇总。原则上,指导教师不参加本人指导的学生答辩。  3、各

2021-11-03 11:52:08 860

原创 本科毕设:基于Python+mysql的仓库管理MIS (附源码,开箱即用!!!)

项目介绍:一、用户界面1.登陆界面a)用户注册:填写账号密码,完成注册,添加至数据库用户信息表b)采购指示:根据货号查看库存。选择所需设备,生成采购计划。c)供应商认定:根据所需设备,查询和选择供应商。d)采购管理:生成订单。e)财务管理:费用核算,财务结算。二、管理员界面1.登陆界面a)管理员登陆:不用注册,直接写死管理员账号即可.2.设备采购管理界面a)添加库存信息:输入库存信息表对应字段值,完成库存更新,添加至数据库…视频链接B站成品演示...

2021-09-15 22:43:54 1103

原创 本科毕设:基于Python+mysql的设备采购MIS (附源码,开箱即用!!!)

项目介绍:一、用户界面1.登陆界面a)用户注册:填写账号密码,完成注册,添加至数据库用户信息表b)采购指示:根据货号查看库存。选择所需设备,生成采购计划。c)供应商认定:根据所需设备,查询和选择供应商。d)采购管理:生成订单。e)财务管理:费用核算,财务结算。二、管理员界面1.登陆界面a)管理员登陆:不用注册,直接写死管理员账号即可.2.设备采购管理界面a)添加库存信息:输入库存信息表对应字段值,完成库存更新,添加至数据库…视频链接B站成品演示...

2021-09-15 22:42:44 505 1

原创 手把手_sublime_python环境配置

目的:在mac sublime中直接运行代码方法:通过配置sublime环境操作:1.tools->buid system->build new system2.完成1后会获得一个xxx.sublime-build文件(这个就是环境配置文件)3.用以下内容覆盖{"cmd": ["/Users/yaosting/anaconda3/lib/python3.7", "-user", "$file"],"file_regex": "^[ ]*File \"(...*?)\", lin

2021-03-11 11:11:53 202

原创 ADF 单位根检验 Dickey-Fuller 迪基-福勒检验

名词解释:Dickey-Fuller 迪基-福勒检验, 单位根检验, 如果存在时序数据中存在单位根, 则表明是非平稳序列ADF检验 增广迪基-福勒检验 排除了自相关的影响为什么需要检验:单位根检验师时序序列分析的一个热点问题, 大部分时序模型都要求输入数据具有稳定性, 因此要先检测数据是否稳定.如果数据本身是不稳定的, 要对数据做差分变化等操作消除单位根, 此时目标值已经没有了实际含义, 但是满足模型需求, 结果在逆向推导.检验原理:时序回归方程: x_t = k *(x_t -1)

2021-02-04 12:27:53 7225

原创 statsmodels 直接引用无有效内容

背景:pip install statsmodels 后, import statsmodels,发现没有statsmodels的函数.如下图。临时解决方案:直接引用自己所需的函数.如下图import statsmodels.api as smdir(statsmodels)[‘builtins’, ‘cached’, ‘doc’, ‘file’, ‘init’, ‘loader’, ‘name’, ‘package’, ‘path’, ‘spec’, ‘version’, ‘_vers

2021-02-04 10:58:36 347 1

原创 机器学习超参数优化算法进化史

背景: 由于深度学习和传统机器学习的超参数性质差异较大,二者的超参数优化算法原理和偏向也不同, 以下算法整理更适用于传统机器学习.1.先盲目地搜索网格搜索(Grid Search, GS) 和 随机搜索(Random Search,RS)2.要有继承性地搜索贝叶斯优化算法(Bayesian Optimization,BO)BO算法能很好地吸取之前的超参数的经验,更快更高效地最下一次超参数的组合进行选择。但是BO算法也有它的缺点:强假设条件(避免非凸、异常平滑、高维噪音等情况)因此催生出BO的启

2021-01-22 11:39:47 962

翻译 NAS简述

Neural architecture search (NAS)名词补充:EA:演化算法RL:强化学习NAS结构三部分:搜索空间:整体结构搜索、cell搜索、分层搜索、网络态射(扩充网络的宽深)架构优化:演化算法、强化学习、代理模型、梯度优化、网格和随机搜索、混合优化模型评估: 看前述的模型实际效果如何,理论上用此模型进行全训练即可,但是性能方面不现实.低保真度、权值共享、代理模型、早停机制2020automl开源框架: NNI、Aotokeras、VEGAAUTOML202

2020-12-21 18:01:44 239

原创 从遗传算法走进TOPT的auto

1.简述遗传算法 元启发式算法(Meta-heuristic algorithms)模拟进化过程,通过选择(Selection)、交叉(Crossover)以及变异(Mutation)等机制,在每次迭代中都保留一组候选个体,重复此过程,种群经过若干代进化后,理想情况下其适应度达到***近似最优***的状态。参考链接:https://www.zhihu.com/question/23293449/answer/1202209742.核心概念将自变量空间编码成染色体,对应的实例称为个体,开始类似于随

2020-12-21 17:58:31 804

原创 Tsfresh 时序数据特征挖掘 特征算子简介

本篇介绍现有主要算子含义和使用注意是想基础算子简单复合算子一.本身无时序概念算子二.本身有时序概念算子复杂复合算子一些使用感悟和补充懂的都懂,下文算子基本按照源码顺序罗列.如果有其他关于tsfresh的问题,欢迎留言讨论,后续可能会再写tsfresh的其他系列文章.部分算子示例:github_jupyter_notenook基础算子1.sum_values(x)2.median(x)3.mean(x)4.length(x)5.standard_deviation(x) 标准差6.vari

2020-11-28 21:56:00 1678

原创 gpsql常用操作

1.时间2.schema关系型数据库中存储数据,首先必须定义schema“模式”,也就是用一种预定义结构向数据库说明:要有哪些表格,表中有哪些列,每一列都存放何种类型的数据。必须先定义好模式,然后才能存放数据。nosql型数据库与之相反3.split集合   1.–select regexp_split_to_table(‘yaosting\test\split’,’\’) ;regexp_split_to_tableyaostingtestspl

2020-08-31 00:17:52 1168

原创 LIBSVM 下载使用及实战

1. LIBSVM 下载libsvm It makes everything automatic–from data scaling to parameter selection.libsvm下载安装后使用libsvm训练模型,出现 gnuplot executable not found此时需要安装gnuplot下载地址安装完成后,更改**gnuplot_exe =**的路径为你gnu...

2019-05-29 12:00:07 6495 1

原创 raspberry install pandas with python 3.6

berrycondaberryconda 是一款为树莓派定制基于 conda python 发行版的开源软件。我们可以使用它来实现类似 Miniconda 和 Anaconda 的功能。berryconda 提供了 python2.7 的 Berryconda2 和 python 3.6 的 Berryconda3,同时还支持 树莓派 0 1 2 3各个系列,我们可以根据自己的树莓派版本选择适...

2019-05-28 21:10:24 1570

原创 Cross entropy loss function in DNN RNN

        我将无我,不负年华1. What is Cross entropy loss function2. How to use Cross entropy in DNN3. How to use Cross entropy in RNN

2019-05-22 14:49:20 395

转载 LDA——从概率的角度去看文学

是自生自灭,还是概率使然。如果说上帝有数不尽的骰子,而人类现有的语言文字只是部分骰子的骰面(毕竟可能有其他外星文明,对应地球的语言只是部分骰子),当上帝添加新的骰子或者骰面的时候,新的语言文字就诞生了。那么文章是不是就可以理解为上帝掷骰子后产生的结果,作家的思路、灵感不过是上帝在掷骰子。针对文章的基本组成 词 来说。例如,“我”,这个词有许多种的表达方式,如果将世界上所有的相关文本进行统...

2019-04-20 16:43:45 348

原创 one-hot到word2vec到bert的进化史(待完善)

本文还是一篇不讲具体原理细节的博客,只写一些3者之间的区别优劣问题,建议先搞懂原理再看,有疑问或者有新的见解,欢迎留言提出。word2vec和embedding梳理1. 从one-hot开始优点:一是解决了分类器不好处理离散数据的问题,二是在一定程度上也起到了扩充特征的作用。缺点:在文本特征表示上有些缺点就非常突出了。首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息也是很...

2019-04-13 10:36:17 1208

原创 Word2vec和embedding 非底层算法原理讲解

网上关于二者的信息真的是多如牛毛,参差不齐。本文不对算法细节进行讲解推导,不从零开始讲二者含义,主要记录些学习中出现的问题。建议先看完基础知识再浏览,欢迎大家留言指出错误或留下你的疑问。 先贴几个不错的链接word2vec源码不错的Word2vec原理讲解1.为什么embedding层引入了词向量就减少了计算量呢?首先,我们要清楚什么是embedding层,**embedding层就是...

2019-04-12 23:11:11 1966

转载 Deep learning深度学习概述

一、Deep Learning的基本思想 假设我们有一个系统S,它有n层(S1,…Sn),它的输入是I,输出是O,形象地表示为: I =>S1=>S2=>…..=>Sn => O,如果输出O等于输入I,即输入I经过这个系统变化之后没有任何的信息损失(呵呵,大牛说,这是不可能的。信息论中有个“信息逐层丢失”的说法(信息处理不等式),设处理a信息得到b,再对b处理得...

2019-04-04 16:39:47 416

转载 KPCA算法浅析

二者都是在PCA和LDA的基础上加入了核函数,从线性变化到非线性变化,因此建议先搞懂什么是PCA、LDA和核函数。KPCA我们先来看一个实际问题,图b是样本在二维空间中的分布,称为本真二维结构,然后以S形曲面嵌入到三维空间中,形成图a的空间结构,如果使用线性降维的方法,会丢失低维结构,得到一个图c这样的二维空间结构。面对上述问题,我们就不能采用传统的线性降维方法了,这时候就要使用我们的核主...

2019-04-03 13:45:17 6578 1

原创 高斯径向基函数(RBF)神经网络

高斯径向基函数(RBF)神经网络牛顿插值法-知乎泰勒公式径向基函数-wiki径向基网络之bp训练RBF网络逼近能力及其算法线性/非线性,使用”多项式“逼近非线性,通过调节超参数来改善多项式参数进一步拟合真实非线性。径向基函数说径向基网络之前,先聊下径向基函数径向基函数(英语:radial basis function,缩写为RBF)是一个取值仅依赖于到原点距离的实值函数,即 ϕ(x...

2019-04-03 00:53:52 33547 5

转载 深入理解PCA(待补充)

t-sne 参考链接PCA理解第一层境界:最大方差投影正如PCA的名字一样, 你要找到主成分所在方向, 那么这个主成分所在方向是如何来的呢?其实是希望你找到一个垂直的新的坐标系, 然后投影过去, 这里有两个问题。第一问题: 找这个坐标系的标准或者目标是什么?第二个问题, 为什么要垂直的, 如果不是垂直的呢?如果你能理解第一个问题, 那么你就知道为什么PCA主成分是特征值和特征向量了...

2019-03-25 22:35:18 333

原创 PCA的劣势分析

PCA原理剖析矩阵的秩 特征向量 特征值是什么?此篇博客主要分析PCA有什么劣势以及产生的原因,对PCA还不清楚的可以结合上面两个博客从多角度深入了解PCA。劣势一,在对数据完全无知的情况下,PCA变换并不能得到较好的保留数据信息。因为PCA需要对数据进行预处理,第一步需要对其进行中心化,如果数据的尺度不统一,还需要标准化。通常的标准化方式是除以标准差。这里可能就出出现一个问题,比如标准差...

2019-03-25 16:22:14 11407

原创 机器学习降维算法对比分析(待补充)

主要的方法有属性(特征)选择,线性映射和非线性映射方法三大类。一、属性(特征)选择缺失值比率:如果数据集的缺失值太多,我们可以用这种方法减少变量数。低方差滤波:这个方法可以从数据集中识别和删除常量变量,方差小的变量对目标变量影响不大,所以可以放心删去。高相关滤波:具有高相关性的一对变量会增加数据集中的多重共线性,所以用这种方法删去其中一个是有必要的。随机森林反向特征消除前向特征选择...

2019-03-24 22:54:28 846

原创 聚类学习

聚类,无监督学习,将无标签样本分为几个簇,两个基本问题,性能度量和距离计算聚类性能度量大致分为2类,外部指标:将聚类结果与某个“参考模型”进行比较;内部指标:直接考察聚类结果但是不利用任何参考模型。外部指标JC/FMI/RI等,值越大性能越好。内部指标DBI/DI等,根据簇内样本的距离值来进行考察。距离计算,距离函数dist(.,.)满足非负性,同一性,对称性,直递性,最常用的是“闵可夫斯基...

2019-03-23 15:15:35 603

原创 机器学习杂货铺(记录零碎的概念点)

定理补充描述:1.Mercer定理说,任何满足对称性和正定性的二元函数k(x,y)都能找到 Hilbert space V\mathcal{V}V 和函数ψ\psiψ 使得 k(x,y) = ⟨ψ(x),ψ(y)⟩.\langle \psi(x),\psi(y)\rangle.⟨ψ(x),ψ(y)⟩.2.矩阵的特征值和特征向量3.矩阵的内积和范数4.机器学习之范式规则化L0范数是指向量中...

2019-03-23 00:02:37 638

原创 机器学习中的kernel是什么?(待补充)

近来看到SVM和核化线性降维KPCA,对其中的核函数难以理解,因此去查阅了众多资料,接下来简单记录总结下对kernel的认识。知乎问题链接参考kernel是什么 ?  首先我们先给出kernel的定义:核函数(kernel function)就是指K(x,y)=<f(x),f(y)>,其中x和y是n维的输入值,f()指的是n维到m维的映射(通常m>>n),<x...

2019-03-21 17:08:48 9451

原创 产生式模型和判别式模型区分

近来看到贝叶斯分类器,其中有一个知识点提及产生式模型和判别式模型,查阅了一番资料终于理解透彻了,特此记录。产生式模型和判别式模型区分二者是分类器中常遇到的概念,产生式模型估计它们的联合概率分布P(x,y),判别式模型估计条件概率分布P(y|x)。判别式模型常见的主要有:Logistic RegressionSVMTraditional Neural NetworksNearest N...

2019-03-20 20:32:49 2719

原创 贝叶斯分类器

本博客是基于对周志华教授所著的《机器学习》的“第7章 贝叶斯分类器”部分内容的学习笔记,主要目的不在于讲解理念,而是偏重梳理流程。1. 贝叶斯公式使用贝叶斯分类器,首先我们先阐述下贝叶斯定理:P(C|X)=P(C)P(X∣C)P(X)\frac {P(C)P(X|C) } {P(X)}P(X)P(C)P(X∣C)​P(c|x):在x的条件下,随机事件出现c情况的概率。(后验概率)P(C...

2019-03-18 15:07:26 232

原创 最近邻算法(KNN)

1.算法概述 目前,对于文本分类的研究已经取得了巨大的进展,常用的文本分类算法有最近邻算法(KNN),支持向量机,人工神经网络,boosting,随机森林等。而KNN算法既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。基于实例的学习方法:1.只是简单地把训练样例存储起来。等到输入一个新的查询实例时,才分析这个新实例和之前存储的实例之间的关系。**该...

2019-03-17 18:00:50 4637

原创 支持向量机SVM浅析(待补充)

1. 间隔与支持向量 对于用于分类的支持向量机,它是个二分类的分类模型。也就是说,给定一个包含正例和反例(正样本点和负样本点)的样本集合,支持向量机的目的就是基于训练集D在样本空间找到一个划分超平面,将不同类别的样本分开,原则是使正例和反例之间的间隔最大。如下图所示:在样本空间中,划分超平面可通过如下线性方程来描述:其中w=(w1;w2;w3;…wn)为法向量,决定了超平面的方向;b为位...

2019-03-14 16:39:17 505

转载 机器学习模型评估方法与选择

1. 评估方法 通常我们通过一个“测试集”来测试学习器对新样本的判别能力,然后用测试集上的“测试误差”作为泛化误差的近似,依此来评估学习器并作出选择。下面介绍几种常见的作法1.1 留出法 “留出法”(hold-out)直接将数据集D划分为两个互斥的集合,一个为训练集,另一个作为测试集。常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试。1.2 交叉验证法 “交叉验证”(cro...

2019-03-14 15:11:59 334

原创 智能问答QA(内附项目实例)(待补充)

1.任务分类自然语言问题大致分为7类:1.事实类问题,适合基于知识图谱或文本生成问题对应的答案。2.是非类问题,适合基于知识图谱或常识知识库进行推理并生成问题对应的答案。3.定义类问题,适合基于知识图谱,词典或文本生成问题对应的答案。4.列表类问题,适合基于网络表格生成问题对应的答案。5.比较类问题,适合基于**&amp;amp;amp;amp;lt;问题,答案&amp;amp;amp;amp;gt;对**进行解答。6.意见类问题7.指导类问题...

2019-03-13 18:44:59 2796

转载 独热编码(待补充)

1.为什么要独热编码?正如上文所言,独热编码(哑变量 dummy variable)是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,...

2019-03-13 16:13:23 630

转载 线性判别分析LDA原理(待补充)

1.线性判别分析概述线性判别分析(LDA)是一种经典的线性学习方法,在二分类问题上最早由Fisher提出,亦称“Fisher判别分析”。LDA在模式识别领域中由非常广泛的应用。LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类阳历的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别,LDA...

2019-03-13 15:48:08 408

转载 线性模型

1.基本形式线性模型试图学得一个通过属性的线性组合来进行预测数函数,即;一般用向量形式写成本篇介绍几种经典的线性模型,我们先从回归任务开始,然后讨论二分类和多分类任务。2.线性回归线性回归试图学得如何确定w和b呢? 显然,关键在于如何衡量f(x)与y之间的差别。均方误差市回归任务中最常用的性能度量,基于均方误差最小化来进行模型求解的方法称为“最小二乘法”,在线性回归中,最小二乘法...

2019-03-13 14:52:52 292

转载 Boosting系列算法之AdaBoost算法

 接自https://blog.csdn.net/Y_hero/article/details/88381259 ,由上一篇总结我们已经初步了解了集成学习以及Boosting的基本原理,不过有几个Boosting具体的问题没有详细解释:1)如何计算学习误差率e?2) 如何得到弱学习器权重系数α?3)如何更新样本权重D?4) 使用何种结合策略?只要是boosting大家族的算法,都要解决这...

2019-03-11 22:18:47 1032

原创 集成学习和Boosting原理总结

接自https://blog.csdn.net/Y_hero/article/details/88376573 bagging与随机森林。1.集成学习 集成学习(ensemble learing)通过构建并结合多个学习器来完成学习任务,有时也被称为多酚类器系统(multi-classifier system),基于委员会的学习(sommittee-baseslearing)等。 以下集成学习...

2019-03-10 17:45:58 991

原创 Bagging与随机森林

前今天整理了决策树的原理实现,顺手再把随机森林的原理整理整理。随机森林(RF) 尽管有剪枝等等方法,一棵树的生成肯定还是不如多棵树,因此就有了随机森林,解决决策树泛化能力弱的缺点。(可以理解成三个臭皮匠顶过诸葛亮),随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。由于同一批数据,用同样的算法只能产生一棵树,而我们...

2019-03-10 11:48:12 771 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除