![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
披风秃头侠
这个作者很懒,什么都没留下…
展开
-
机器学习算法GBDT
1.简介gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算法。gbdt的面试考核点,大致有下面几个:gbdt 的算法的流程? gb...转载 2020-04-01 23:14:45 · 861 阅读 · 0 评论 -
学习SVM,这篇文章就够了!(附详细代码)
学习SVM,这篇文章就够了!(附详细代码)支持向量机(SVM),一个神秘而众知的名字,在其出来就受到了莫大的追捧,号称最优秀的分类算法之一,以其简单的理论构造了复杂的算法,又以其简单的用法实现了复杂的问题,不得不说确实完美。本系列旨在以基础化的过程,实例化的形式一探SVM的究竟。曾经也只用过集成化的SVM软件包,效果确实好。因为众人皆说原理复杂就对其原理却没怎么研究,最近...转载 2020-04-01 21:30:07 · 5465 阅读 · 2 评论 -
XGBoost算法
1. 什么是XGBoost XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。 说到XGBoost,不得不提GBDT(Gradient Boosting Decision Tree)。因为XGBoost本质上还是一个GBDT,但是力争把速度和效...转载 2020-03-29 12:44:26 · 538 阅读 · 0 评论 -
机器学习算法之LightGBM
GBDT模型的另一个进化版本:LightGBM。LigthGBM是boosting集合模型中的新进成员,由微软提供,它和XGBoost一样是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势:更快的训练效率 低内存使用 更高的准确率 ...转载 2020-03-28 16:06:11 · 3596 阅读 · 0 评论 -
无痛看懂LightGBM原文
作为三大知名GBDT的实现之一,LightGBM的优点就是快的一逼的同时精度还高。最开始我还以为是框架出自大厂之手,工程上的实现比Xgboost要好很多,所以计算比较快,看了原文才知道这内有乾坤,而且都是很容易理解的道理。所以为了展现我的学识,咳咳,今天一定要来逼逼两句。开门见山的说,LGB(LightGBM,下文均采用此缩写)不需要通过所有样本计算信息增益了,而且内置特征降维技术,所以更快。...转载 2020-03-28 14:09:04 · 584 阅读 · 0 评论 -
pandas读取文件的read_csv()
import pandas as pdpd.read_csv(filepath_or_buffer,header,parse_dates,index_col)参数:filepath_or_buffer:字符串,或者任何对象的read()方法。这个字符串可以是URL,有效的URL方案包括http、ftp、s3和文件。可以直接写入"文件名.csv"header:将行号用作列名,且是数据...转载 2020-03-28 10:27:34 · 953 阅读 · 0 评论 -
SVM(支持向量机)
通过跟高斯“核”的结合,支持向量机可以表达出非常复杂的分类界线,从而达成很好的的分类效果。“核”事实上就是一种特殊的函数,最典型的特征就是可以将低维的空间映射到高维的空间。我们如何在二维平面划分出一个圆形的分类界线?在二维平面可能会很困难,但是通过“核”可以将二维空间映射到三维空间,然后使用一个线性平面就可以达成类似效果。也就是说,二维平面划分出的非线性分类界线可以等价于三维平面的线性分类...转载 2020-03-21 18:26:19 · 1366 阅读 · 0 评论 -
XGBoost原理
一.绪论在实际应用的机器学习方法里,GradientTree Boosting (GBDT)是一个在很多应用里都很出彩的技术。XGBoost是一套提升树可扩展的机器学习系统。2015年Kaggle发布的29个获胜方法里有17个用了XGBoost。在这些方案里,有8个仅用了XGBoost,另外的大多数用它结合了神经网络。对比来看,第二流行的方法,深度神经网络,只被用了11次。这个系统的成功性也被K...转载 2020-03-17 13:12:30 · 2891 阅读 · 0 评论 -
特征选择
特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中...转载 2020-03-15 22:37:40 · 4777 阅读 · 0 评论 -
迁移学习(Transfer)
1. 什么是迁移学习迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹...转载 2020-03-14 21:33:09 · 6789 阅读 · 0 评论 -
组合数学在软件领域的运用
摘要:组合数学,又称为离散数学,但有时人们也把组合数学和图论加在一起算成是离散数学。组合数学是计算机出现以后迅速发展起来的一门数学分支。计算机科学就是算法的科学,而计算机所处理的对象是离散的数据,所以离散对象的处理就成了计算机科学的核心,而研究离散对象的科学恰恰就是组合数学。随着计算机科学的发展,组合数学也在迅猛发展,而组合数学在理论方面的推进也促进计算机科学的发展。计算机软件空前发展的今天要求有...原创 2020-03-14 08:44:33 · 6728 阅读 · 0 评论 -
文本规范化(Text Normalization)
文本规范化问题作为自然语言处理中的重要一步,很多人对此进行了各种研究。在本文中,我们提出了一种解决此问题的新模型,GRFE(Gated Recurrent Feature Extractor)。该模型充分利用了符号的类别信息,并据此规范化符号。应用此模型,不仅可以提高神经网络的鲁棒性,而且还可以避免”all sillyerrors”.实验表明,与以往模型相比,该模型的参数个数更少。GRFE...原创 2020-03-13 13:35:34 · 10667 阅读 · 0 评论 -
聚类分析不同学生对于不同考试的成绩表现
实验目的与要求目的: 使用学习成绩、课外实践活动等数据对学生群体进行聚类分析。我们建立了学生与必修考试成绩一一对应的二维矩阵,聚类分析不同学生对于不同考试的成绩表现。流程: 首先,应对原有数据进行标准化。其次,建立相应的模糊相似矩阵,并由此得到模糊等价矩阵。最终,对其进行聚类。正在上传…重新上传取消图1 流程图 实验软件环境 MatlabvR2016b 用于聚类分析...原创 2020-03-13 13:24:32 · 9113 阅读 · 1 评论 -
XGBoost原理
一.绪论在实际应用的机器学习方法里,GradientTree Boosting (GBDT)是一个在很多应用里都很出彩的技术。XGBoost是一套提升树可扩展的机器学习系统。2015年Kaggle发布的29个获胜方法里有17个用了XGBoost。在这些方案里,有8个仅用了XGBoost,另外的大多数用它结合了神经网络。对比来看,第二流行的方法,深度神经网络,只被用了11次。这个系统的成功性也被K...转载 2020-03-13 12:33:24 · 6620 阅读 · 0 评论 -
随机森林算法原理
RF是以决策树为基学习器构建bagging的基础上,进一步在决策树的训练过程中引入随机属性,简言之 RF就是 bagging+决策树,如果非必要的话,没有必要从头到尾重新搭建基学习器,已有的包可以解决当前问题即可。但是也存在一个问题,即现有的包中都将0/1赋予同样的权重,所以当样本不均衡且更关注负样本时,此时投票函数需要进一步的优化。算法流程 ① 假设存在数据集,有特征数N,有放回的抽样可以...转载 2020-03-13 12:23:53 · 8539 阅读 · 0 评论 -
森林优化算法(forest optimization algorithm,简称 FOA)
森林优化算法(forest optimization algorithm,简称 FOA)是 Ghaemi 于 2014 年提出的一种仿生类进化算法, 用于解决单目标非线性连续搜索空间问题.FSFOA算法试图将 FOA算法用在离散搜索空间的问题上,即特征选 择,并取得了不错的效果. 在 FSFOA 算法中,每棵树代表问题的一个可能解,即一个特征子集.树中的每个“1”表示相应的特征被选择 参与机器学习...原创 2020-03-13 12:17:00 · 9238 阅读 · 0 评论 -
量子化信息素蚁群优化特征选择算法
近年来,许多涉及信息的领域中产生了包含众 多特征的高维数据,然而并不是所有特征都是重要 的。许多特征甚至是不相关或冗余的,这不仅使数 据处理过程变得困难,还降低了学习算法的效率, 如分类算法等学习算法的性能[1]。特征选择旨在利 用一种选择策略,消除不相关和冗余的特征,找到 最佳特征子集[2]。 根据选择策略的不同,特征选择方法可以分为 三类:过滤式方法、包裹式方法...转载 2020-03-13 12:09:46 · 8492 阅读 · 0 评论 -
二次量子化
这个问题的一个最自然的过程是:1,在单粒子Hilbert 空间上做张量代数得到Fock 空间,Fock 空间上的张量积和内积自然对应粒子态的产生和湮灭。张量代数的对称子代数和外代数自然对应玻色子和费米子的多粒子态空间。2,一般情况下,单粒子态会用4动量的连续谱标记,此时用产生湮灭算符亦是以粒子的3动量标记的。分别对产生算符和湮灭算符做傅立叶变换,可以得到两个时空上的算符函数。对他们进...原创 2020-03-13 12:06:28 · 6586 阅读 · 0 评论 -
BP神经网络(原理及MATLAB实现)
人工神经网络概述:人工神经元模型:神经网络的分类:按照连接方式,可以分为:前向神经网络 vs. 反馈(递归)神经网络;按照学习方式,可以分为:有导师学习神经网络 vs. 无导师学习神经网络;按照实现功能,可以分为:拟合(回归)神经网络 vs. 分类神经网络。数据归一化:将数据映射到[0, 1]或[-1, 1]区间或其他的区间。数据归一化的原因:1...转载 2020-03-10 10:06:56 · 6837 阅读 · 0 评论 -
决策树
决策树的工作原理决策树基本上就是把我们以前的经验总结出来。如果我们要出门打篮球,一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断,最后得到结果:去打篮球?还是不去?上面这个图就是一棵典型的决策树。我们在做决策树的时候,会经历两个阶段:构造和剪枝。构造构造就是生成一棵完整的决策树。简单来说,构造的过程就是选择什么属性作为节点的过程,那么在构造过程中,会存在三种节点...原创 2020-03-01 11:30:29 · 8297 阅读 · 0 评论 -
机器学习--集成学习(Ensemble Learning)
一、集成学习法在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技术...转载 2020-02-18 17:41:44 · 11601 阅读 · 0 评论 -
30分钟讲清楚深度神经网络
这两年神经网络各种火。但对很多人而言,只是听着觉得各种高大上,究其本质,还是听不懂。下面我们花三十分钟把这个事情讲清楚。神经网络算法是最早来源于某神经生理学家和某数学家联合发表的一篇论文,他们对人类神经运行规律的提出了一个猜想,并尝试给出一个建模来模拟人类神经元的运行规律。神经网络一开始由于求解问题的不稳定,以及范围有限被抛弃。后面又在各个大神的努力下,对遇到的问题一个个解决,加上因为游戏...转载 2020-02-16 11:00:43 · 10308 阅读 · 0 评论 -
LSTM
目录 递归神经网络 长期依赖问题 LSTM Networks LSTM背后的核心理念 遗忘门 输入门 输出门 LSTM变体目录递归神经网络 长期依赖问题 LSTM Networks LSTM背后的核心理念 遗忘门 输入门 输出门 LSTM变体回到顶部递归神经网络关于RNN和LSTM 李宏毅老师的课讲的十分清晰https://ww...转载 2020-02-15 23:19:07 · 9001 阅读 · 0 评论 -
深度学习之GRU网络
1、GRU概述 GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。 在LSTM中引入了三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而在GRU模型中只有两个门:分别是更新门和重置门。具体结构如下图所示: 图中的...翻译 2020-02-15 20:00:30 · 8990 阅读 · 0 评论 -
卷积神经网络(CNN)
从今天起,正式开始讲解卷积神经网络。这是一种曾经让我无论如何也无法弄明白的东西,主要是名字就太“高级”了,网上的各种各样的文章来介绍“什么是卷积”尤为让人受不了。听了吴恩达的网课之后,豁然开朗,终于搞明白了这个东西是什么和为什么。我这里大概会用6~7篇文章来讲解CNN并实现一些有趣的应用。看完之后大家应该可以自己动手做一些自己喜欢的事儿了。一、引子————边界检测我们来看一个最简单的例...转载 2020-02-15 16:37:59 · 7830 阅读 · 1 评论 -
一文搞懂RNN(循环神经网络)基础篇
神经网络基础神经网络可以当做是能够拟合任意函数的黑盒子,只要训练数据足够,给定特定的x,就能得到希望的y,结构图如下:将神经网络模型训练好之后,在输入层给定一个x,通过网络之后就能够在输出层得到特定的y,那么既然有了这么强大的模型,为什么还需要RNN(循环神经网络)呢?为什么需要RNN(循环神经网络)他们都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但...转载 2020-02-15 12:07:40 · 7622 阅读 · 0 评论 -
python pytorch安装
pytorch 的安装方法有2种,一种是pip安装,另一种就是下载whl文件然后本地安装。 方法一:pip安装 或许会想到直接使用pip install torch 但是这样会报错,安装失败。所以,可以到【官网】找对应版本进行下载。 1. 点击进入官网 2. 点击Get Started,按照自己的配置选择相应的选项,最后复制生成的命令到...转载 2020-02-13 10:31:52 · 12212 阅读 · 0 评论 -
python实现RNN
#用python实现RNN#用RNN学习二进制加法:1.学习当前位的加法;2.学习关于前一位的进位import copy,numpy as npnp.random.seed(0)def sigmoid(inX): return 1/(1+np.exp(-inX))def sigmoid_output_to_derivative(output): return ...转载 2020-02-12 13:25:48 · 9865 阅读 · 1 评论 -
机器学习算法基础(使用Python代码)
介绍谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化。-Eric Schmidt(Google董事长)我们可能生活在人类历史上最具决定性的时期。从大型的电脑主机到个人电脑再到云计算的时代。但是,它的定义并不是发生了什么,而是未来几年我们将面临什么。对于我这样的人来说,这段时期真的是让人兴奋和着迷的,因为随着技术的...转载 2020-02-12 11:22:55 · 7940 阅读 · 0 评论