机器学习
文章平均质量分 78
杨树1026
这个作者很懒,什么都没留下…
展开
-
机器学习模型评估方法
机器学习模型评估方案,包括训练集测试集划分方案,常用评估指标,AUC的具体含义等原创 2017-11-24 10:33:18 · 2347 阅读 · 0 评论 -
最简单反向传播神经网络TensorFlow实现
最简单反向传播神经网络TensorFlow实现一. 准备输入数据二. 定义网络结构三. 定义方向传播四. 训练网络一. 准备输入数据二. 定义网络结构三. 定义方向传播四. 训练网络#ecoding=utf-8import numpy as npimport tensorflow as tf#准备训练数据集trainX = np.random.random(size=[100,...原创 2019-03-19 19:34:27 · 605 阅读 · 0 评论 -
支持向量机svm原理与常见问题
1,参数 C : float, optional (default=1.0):惩罚系数,越大越会过拟合 kernel : string, optional (default='rbf'):核函数,linear:线性, poly:多项式, rbf:高斯, sigmoid:sigmod, precomputed: ,callable:自定义。 degree : int, opt...原创 2018-10-22 15:40:20 · 1230 阅读 · 0 评论 -
决策树--ID3,C4.5,CART
ID3 : 信息增益、集和熵-集和按照属性划分后每个子集信息熵加权和C4.5 : 信息增益率、信息增益/属性信息熵,剪枝,连续,缺失CART: 基尼系数、按照属性划分后每个子集合基尼指数加权和(1-概率平方和),二叉树,特征再分裂参数1,criterion : string, optional (default="gini"),节点分裂标准2,splitter : string...原创 2018-08-07 21:09:07 · 245 阅读 · 0 评论 -
逻辑斯特回归总结--线性模型与非线性模型对比
LR 参数多分类情况下使用一对多策略,损失函数为交叉熵损失,求解方法为LBFGS,SAG和NEWTON-CG。1,penalty : str, 'l1' or 'l2', default: 'l2':正则项,默认为l2。三种求解方式只支持L22,dual : bool, default: False:是否转化为对偶问题3,C : float, default: 1.0:正则项系数的逆序,越大越过拟...原创 2018-04-10 13:45:51 · 8980 阅读 · 0 评论 -
随机森林,GBDT,XGBOOST三种集成算法的特点与对比
目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagging和“随机森林”(Random Forest)。随机森林自助抽样,特征采样,无剪枝,投票,减小方差1,原理:提到随机森林,就不得不提Bagging,Bagging可以简单的理解为:放回抽样,多数...原创 2018-04-09 14:38:51 · 20431 阅读 · 0 评论 -
数据挖掘--异常检测总结
一、异常检测定义异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。 二、常见的异常成因数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然变异,以及数据测量或收集误差。 三、异常检测的方法(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值...转载 2018-03-25 17:12:28 · 1867 阅读 · 0 评论 -
树模型中分裂特征选择标准--信息熵,信息增益,信息增益率的计算
1.熵:集和的熵值 -sum(pi * log(pi , 2))2.信息增益:集和的熵-按照特征a划分后子集的熵加权和(偏向类别数目多的属性) 3.信息增益率:信息增益/属性的熵(偏向类别数目少的属性)4.基尼值:1-集和各类别值的概率平方和(随机抽取两个样本其类别不一致的概率) 1 - sum(pi**2)5.基尼系数:按照属性a划分后各子集的加权基尼和ID3:判别式模型,分类树,多叉树,信息增...原创 2018-03-25 17:06:34 · 4876 阅读 · 0 评论 -
机器学习常用优化算法--梯度下降,牛顿法,共轭梯度法,拉格朗日乘数法
· 1. 梯度下降法(Gradient Descent)· 2. 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods)· 3. 共轭梯度法(Conjugate Gradient)· 4. 启发式优化方法· 5. 解决约束优化问题——拉格朗日乘数法 1. 梯度下降法(Gradient Descent)梯度下降法是最早最简单,也是最为常用的最优化方法...转载 2018-03-25 16:53:01 · 1796 阅读 · 0 评论 -
数据挖掘-特征工程(特征挖掘)
什么是好?好的特征代表了灵活性、更简单的模型和更好的结果,不相关的特征则会影响模型的泛化性。因此特征选择和特征工程并非是互相排斥的,而是相辅相成的。有效的特征工程能够帮助我们提炼数据的代表。接着问题就来了,什么才是好的代表?代表的好坏取决于里面所包含信息的好坏。熵(Entropy,熵值越高,数据中所包含的信息越多),方差(Variance,方差越大,数据中所包含的信息越多),更好的分离映射(Pro...翻译 2018-03-25 16:50:58 · 7079 阅读 · 0 评论 -
NLP中关于文本分类问题的常用方案
NLP通常包括两个关键问题:1.选择什么样的语言模型?2.选择什么样的分类算法?第二个问题是机器学习领域的标准问题,各种针对不同数据类型、数据分布的算法和技巧,这里不再赘述。而在NLP当中,语言模型更加重要一些。不同语言模型的区别,也就是对文本提取特征的不同。常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以...原创 2018-03-25 16:50:04 · 4040 阅读 · 0 评论 -
python matplot美化+坐标轴范围设置等笔记
一.sklearn评估1.混淆矩阵 from sklearn.metrics import confusion_matrix confusion_matrix(testLabel,pre_label)2.大小类评估指标:精确率,召回率,f1得分 from sklearn.metrics import classification_report classification_report(tes...原创 2018-03-25 16:48:35 · 31731 阅读 · 2 评论 -
机器学习的一些基本概念
机器学习算法的一些基本概念,包括样本,标签,训练集,测试集,样本空间,模型,算法等原创 2017-11-24 10:46:44 · 339 阅读 · 0 评论 -
数据分析要点笔记
数据分析要点笔记原创 2017-11-24 10:44:00 · 393 阅读 · 0 评论 -
机器学习算法之线性模型
1.线性方程与非线性方程线性方程:代数方程如y = 2x + 5,其中任何一个变量都为1次幂,这种方程的图像为一条直线(平面),所以称为线性方程非线性方程:y**2 = 2x + 5,因变量和自变量之间不是线性关系,如平方关系、对数关系、指数关系和三角函数关系等2.基本形式给定有m个属性描述的实例x=(x1,x2...,xm),其中xi是x在第i个属性上的取值,线性原创 2017-11-24 10:37:14 · 7712 阅读 · 0 评论 -
数据挖掘一般流程
数据挖掘/数据分析一般流程/套路原创 2017-11-24 10:34:53 · 1245 阅读 · 0 评论 -
决策树ID3,C4.5,CART
ID3 : 信息增益、集和熵-集和按照属性划分后每个子集信息熵加权和C4.5 : 信息增益率、信息增益/属性信息熵,剪枝,连续,缺失CART: 基尼系数、按照属性划分后每个子集合基尼指数加权和(1-概率平方和),二叉树,特征再分裂参数1,criterion : string, optional (default="gini"),节点分裂标准2,splitter : string, op...原创 2019-03-19 09:52:22 · 255 阅读 · 0 评论