机器学习与数据挖掘
文章平均质量分 75
黄小猿
数学系的孩子,对人工智能有着极大的热情,让机器像人一样,学习提升,是挑战人类对大脑的认知底限,愿尽自己的绵薄之力,让这个世界更美好。
展开
-
手推SVM(二)-核方法
注:核方法不仅仅在SVM中应用,它是一种思想,就像正则化一样,能应用于其他的模型。核方法思想相似性度量核方法 3.1 kernel trick(核技巧) 3.2 Kernel Properties(核性质) 3.3核函数解决了非线性可分的问题常见的核函数 4.1 线性核 4.2 多项式核 4.3 高斯核(RBF) 4.4 sigmoid核Kernel Logistic Reg原创 2017-12-08 13:21:35 · 3156 阅读 · 0 评论 -
【机器学习系列之七】模型调优与模型融合(代码应用篇)
这是本人对模型的融合的代码合集,环境是python3,只要复制过去就可以用了,非常方便。目录1.交叉验证 1.1 原理 1.2 GridSearchCV2.绘制学习曲线3.stacking 3.1 stacking原理 3.2 代码实现不同版本的stacking 3.2.1.官网给的例子(简单粗暴) 3.2.2 用概率作为第二层模型的特征 3.2.3 特征多样性 3.2.4.原创 2017-11-18 09:31:17 · 13794 阅读 · 2 评论 -
手推SVM(一)-数学推导
SVM的想法SVM中在数学上目标 2.1 判定条件 2.2 最大间隔假设SVM的推导 3.1 第一种境界 3.2 第二种境界SVM的推导过程和他的地位一样重要,虽然很久以前就已经接触过SVM了,但总感觉理解不是很深,接着听课的热度,顺便写篇文章让自己理解更深刻一点,本文假设你只会简单的向量乘法,推导出SVM。 1.SVM的想法监督学习,作为一个二分类任务,在平面上表示就是希望有这原创 2017-12-05 21:40:16 · 10094 阅读 · 2 评论 -
【机器学习系列之四】概率统计学习基础
总结了概率统计中的重要知识点,不当之处,还望指正。原创 2017-11-01 12:28:29 · 1062 阅读 · 0 评论 -
让你看懂聚类分析
目录1.聚类分析概述 2.各种距离的定义 2.1 样本相似性度量 2.2 类与类间的相似性度量 2.3 变量间的相似度度量 3.划分聚类 4.层次聚类 1.聚类分析概述聚类分析是一种定量方法,从数据分析的角度看,它是对多个样本进行定量分析的多元统计分析方法,可以分为两种:对样本进行分类称为Q型聚类分析对指标进行分类称为R型聚类分析从数据挖掘的角度看,又可以大致分为四种:划分原创 2017-12-16 20:22:16 · 155922 阅读 · 5 评论 -
A Practical Guide to Training Restricted Boltzmann Machines 中文翻译
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−------------------------受限玻尔兹曼机的实用训练指南受限玻尔兹曼机的实用训练指南受限玻尔兹曼机的实用训练指南第一版第一版第一版−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−------------------------多伦多大学...原创 2018-03-21 18:44:50 · 2304 阅读 · 0 评论 -
深度学习中的常见优化问题
1. 偏差与方差正则化dropout正则化1. 偏差与方差区分偏差和方差,我们可以看训练集上的误差和验证集上的误差。 训练集的误差低,验证集的误差高,表现为高方差,可能是过拟合了训练集的误差高,验证集与训练集的误差与训练集误差相当,表现为高偏差,可能是欠拟合了如图所示:直观看,红点表示真实值的范围,蓝点表示预测。当蓝点特别聚集时,表示...原创 2018-04-25 10:45:09 · 1438 阅读 · 0 评论 -
【机器学习系列之三】特征工程
目录 1.特征工程概述与采样 2.数据预处理2.1 数值型数据 2.2 类别型数据 2.3 文本型 2.4 其他 2.5 时间型 2.6 统计特征 2.7 特征结合feature stacker 3 . 特征选择3.1 Filter 3.2 Wrapper 3.3 Embedded 4 . 降维技术4.1 PCA(Principal Component An原创 2017-10-31 22:56:34 · 3053 阅读 · 0 评论 -
机器学习常用参考文章
机器学习算法使用图谱机器学习算法一览,应用建议与解决思路Approaching (Almost) Any Machine Learning Problem Base classes and utility functionsplot learning curve原创 2017-12-11 08:03:22 · 331 阅读 · 0 评论 -
【机器学习系列之六】决策树中的特征选择及树的剪枝
决策树的分类 特征选择 树的剪枝 小结一下 决策树的学习主要包含三个方面,分别是特征选择,决策树生成,和决策树的剪枝。我们首先介绍一下决策树是怎么分类的,然后详细介绍一下决策树的学习过程。 决策树的分类(决策树也可以用于回归) 决策树是一种常用算法,很多集成算法的底层就是决策树,比如GBDT,XGBoost,因此了解决策树是如何分类的就变得尤为重要了。决策问题一般的原创 2017-11-16 20:55:25 · 9124 阅读 · 2 评论 -
使用K近邻(KNN)对鸢尾花分类
KNN算法的精髓在于近朱者赤近墨者黑,所以距离通过欧氏距离或者夹角余弦来计算。他的主要计算步骤为:1.算距离:给定测试对象,计算它与训练集中的每个对象的距离2.寻找邻居:圈定距离最近的K个训练对象,作为测试对象的近邻。3.做分类:根据这K个近邻归属的主要类别,来对测试对象分类。对kNN算法的伪代码:1.采用load_iris读取数据并查看 2.分割数据,原创 2017-08-27 08:51:12 · 14289 阅读 · 0 评论 -
【机器学习系列之一】线性回归模型
回归1. 线性回归2. 逻辑回归 1. 线性回归今天我们来谈一下线性回归。 问题:假如我想知道一个房屋的房价是多少,现在我们能提供的数据包含房屋的面积,房屋的朝向,房屋的地理位置等有关房子的信息,我们该怎么做呢?聪明的你一定已经知道了。为了方便,我们把所有的数据用x1,x2等来表示,他们可以组成一个向量表示为X,通过拟合一条直线,原创 2017-10-09 21:04:01 · 641 阅读 · 0 评论 -
【机器学习系列之五】贝叶斯网络---图模型
注:图模型的核心在于找到联合分布,因为联合分布知道之后,求他的小弟(子集)就很容易了。 问题 问题1:好消息与坏消息 医生有一个好消息和一个坏消息,坏消息是机器检测出来你有0.99的概率患了某种癌症,好消息是这是个罕见疾病,一万个人中才有一个人患病。 问:你有多大的可能性确实得病了?问题2:Monty hall 有三扇门,标号1,2,3,其中有一扇门背后有百万大奖,另外两扇门后原创 2017-11-05 18:13:15 · 1583 阅读 · 0 评论 -
【机器学习系列之二】逻辑回归(LR,Logistic Regression)
起源模型原理 2.1 问题转换 2.2 损失函数-真实值与计算值的关系 2.3 参数求解方法-梯度下降法模型优化 3.1 过拟合于欠拟合 3.2 正则化实践应用案例 4.1 微额借款用户人品预测大赛 4.2 使用sklearn包来实现总结引用 1.起源逻辑回归的起源分了好几个阶段,每个阶段都是前人经过漫长的研究,试验得来的,了解它是怎么来的,有助于理解如何把一个现实问题转原创 2017-10-19 11:26:12 · 3528 阅读 · 0 评论 -
【机器学习系列之八】模型设计
本文是竞赛中的模型设计,基本都非常复杂,针对不同问题,有不同的解法,所以这只是参考。 1.微额借款人品预测-不得直视本王特征处理的时候对数值型数据生成了排序特征,还有离散特征和计数特征。 M1: python,R,java三个不同版本的xgboost + SVM。参数各有不同,因此模型间具有比较高的差异性。 M2: 利用bagging的思想,训练36个xgboost.每个xgboost原创 2017-11-18 11:16:11 · 648 阅读 · 0 评论 -
简单商品推荐
本次简单商品推荐只考虑购买两种商品的情况。即希望得到:如果一个人购买了商品A,那么他很有可能购买B。这样的规则。首先导入我们的数据集,并查看用来训练的数据集类型。import numpy as npfrom __future__ import divisiondataSet_fileName = "affinity_dataset.txt"X = np.loadtxt(data原创 2017-08-21 23:52:13 · 642 阅读 · 0 评论 -
手推SVM(三)-软间隔和损失函数的推导
1.软间隔的提出上一篇文章(手推SVM(二)-核方法 )我们用核方法来解决线性不可分问题,但如果即使映射到高维空间中,仍然有部分点不能完美的区分开呢? 如图,无论核函数怎么选取,都不能完美区分开数据,即使能完美的区分开数据,也会很容易导致过拟合的发生,这时候我们该怎么办呢?既然人在做某事的时候,能允许犯一点小错,那模型为什么就不能允许犯一点小错呢?这就是软间隔的想法,既然确实无法区分开,那我原创 2017-12-08 21:45:49 · 5605 阅读 · 1 评论 -
利用支持向量机(SVM)做手写数字识别
# 从sklearn.datasets里导入手写体数字加载器。from sklearn.datasets import load_digits# 从通过数据加载器获得手写体数字的数码图像数据并储存在digits变量中。digits = load_digits()# 检视数据规模和特征维度。digits.data.shape结果输出(1797, 64)# 从sklearn.翻译 2017-08-27 00:16:37 · 7094 阅读 · 0 评论 -
优化算法分析:从q群智能优化到优化技巧
4.2 模拟退火算法5.优化技巧5.1 正则化5.2 集成模型5.3 Dropout随机失活6.优化算法分析6.1 基于梯度的优化6.2 基于二阶近似的优化6.3 群智能优化6.4 集成优化思想4.2 模拟退火算法 在一般的优化问题中,防止算法陷入局部最优解一直是某些算法的难点,对于基于梯度的算法,如果优化的目标函数不是一个凸函数,那它的表...原创 2018-07-02 16:32:13 · 4628 阅读 · 0 评论