机器学习笔记
文章平均质量分 74
Yucen的机器学习笔记
_Yucen
这个作者很懒,什么都没留下…
展开
-
机器学习:生成式模型和判别式模型
决策函数Y=f(X)与条件概率分布P(Y|X)决策函数Y=f(x):输入一个x,它就输出一个y值,这个y与一个阈值比较,根据比较结果判定x属于哪个类别。条件概率分布P(y|x):输入一个x,它通过比较它属于所有类的概率,然后预测时应用最大后验概率法(MAP)即比较条件概率最大的类为x对应的类别。举个例子,对于一个二分类问题:对于Y=f(x)形式的分类模型,如果输出Y大于某个阈值V就属于...原创 2018-12-23 11:41:27 · 9126 阅读 · 1 评论 -
机器学习:不均衡样本情况下的抽样
题目在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是( )(多选)A. 将负样本重复10次,生成10w样本量,打乱顺序参与分类B. 直接进行分类,可以最大限度利用数据C. 从10w正样本中随机抽取1w参与分类D. 将负样本每个权重设置为10,正样本权重为1,参与训练过程---------------...转载 2018-12-20 21:24:42 · 2102 阅读 · 0 评论 -
xgboost的原理没你想像的那么难(转载)
转自:https://www.jianshu.com/p/7467e616f227 文章版权归原作者所有 xgboost 已然火爆机器学习圈,相信不少朋友都使用过。要想彻底掌握xgboost,就必须搞懂其内部的模型原理。这样才能将各个参数对应到模型内部,进而理解参数的含义,根据需要进行调参。本文的目的就是让大家尽可能轻松地理解其内部原理。主要参考文献是陈天奇的这篇文章introdu...转载 2018-10-22 10:44:16 · 288 阅读 · 0 评论 -
机器学习实战——模型评估与结果修正
在预测模型生成结果之后,我们需要对得到的结果进行评估,进而修正预测模型,这时需要用到混淆矩阵(confusion matrix),也称为错误矩阵(error matrix)。之所以叫做‘混淆矩阵’,是因为能够直观的到有没有将样本的类别给混淆了。混淆矩阵是评判模型结果的指标,属于模型评估的一部分。矩阵的每一行代表样本所属的真实类别,矩阵的每一列则表达了分类器对于样本的类别预测,而每个格子中的数值...原创 2018-12-18 11:36:33 · 2842 阅读 · 0 评论 -
机器学习实战——数据探索之数据泄露(Data Leakage)
1、什么是数据泄露数据科学的中的数据泄露(Data Leakage)和其他场合涉及信息安全的数据泄漏不一样,是指一些feature不是在因果关系上顺利释预测值的‘因’,而是预测值的‘果’,存在和利用这种因果倒置的feature的现象,叫数据竞赛中的Data Leakage。Data Leakage 基本都是竞赛主办方在准备数据或者数据采样的时候出了问题,误将与结果直接相关或存在颠倒因果关系...原创 2018-12-18 10:58:40 · 4734 阅读 · 0 评论 -
机器学习实战——特征工程之关联规则
关联规则:X->Y 用于表示数据内部隐含的关联性。X称为先导(antecedent或left-hand-side, LHS),Y称为后继(consequent或right-hand-side, RHS)。支持度:关联规则的支持度support,指的是事件X和事件Y同时发生的概率,支持度越大表明XY两者同时出现越频繁。support(X->Y) = support(Y->X...原创 2018-12-18 10:00:46 · 1296 阅读 · 0 评论 -
机器学习实战——特征工程之特征构建
特征构建是指通过研究原始数据样本,结合机器学习实战经验和相关领域的专业知识,思考问题的潜在形式和数据结构,人工创造出新的特征,而这些特征对于模型训练又是有益的并且具有一定的工程意义。特征构建的方式主要有单列操作、多列操作、 分组/聚合操作这三种。1. 单列操作在pandas库中,主要利用map()函数进行单列的操作。map()函数是将目标函数作用于一个Series的每一个元素,而D...原创 2018-09-26 18:57:39 · 8005 阅读 · 1 评论 -
机器学习实战——特征工程之数据预处理
机器学习实战的特征工程主要包含数据预处理、特征构建、特征选择三步,首先来介绍数据预处理。我选择python作为工具,并将主要用到pandas、numpy等数据工具库。加载库:import pandas as pdimport numpy as np1. 观察数据(1)查看数据的行数和列数print("TRAIN shape:",train.shape)(2)查看数据的...原创 2018-09-26 10:59:39 · 874 阅读 · 2 评论 -
机器学习中的F1-score
一、什么是F1-scoreF1分数(F1-score)是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。此外还有F2分数和F0.5分数。F1分数认为召回率和精确率同等重要,F2分数认为召回率的重要程度是精确率的2倍,而F0.5分数认为召回率的重要程度是精确率的一半。计算公式为:G...原创 2018-09-13 11:38:28 · 244693 阅读 · 17 评论 -
机器学习经典算法总结(1)——支持向量机
原创 2018-02-06 18:58:38 · 421 阅读 · 0 评论 -
机器学习经典算法总结(2)——贝叶斯分类器
贝叶斯分类器 最小化错误率的贝叶斯最优分类器为:其中, 基于贝叶斯公式,可改写为:其中称P(c|x) 为后验概率,P(c) 为先验概率,P(x|c) 为条件概率. 朴素贝叶斯分类器 对于已知类别,假设所有属性相互独立,上式可重写为:由于对所有类别来说相同,朴素贝叶斯分类器(naive Bayes classifier)表达式为:于是...原创 2018-02-06 21:01:44 · 419 阅读 · 0 评论 -
机器学习经典算法总结(3)——特征选择
一、特征的分类1. 相关特征:对当前学习任务有用的属性。2. 无关特征:对当前学习任务没有用的属性。3. 冗余特征:包含的信息能从其他特征中推演出来,冗余特征有时候不起作用,有时候则是有益的,对应了学习任务所需的“中间变量”。 二、特征选择1. 概念:从给定的特征集合中选择出相关特征的子集的过程。2. 为什么要进行特征选择?(1)减轻维数灾难问题(2)降低学习任务的难度3. 处理高维数据的两大主流...原创 2018-03-08 09:13:06 · 1806 阅读 · 0 评论 -
机器学习经典算法总结(4)——集成学习
一、集成学习1. 概念 集成学习(ensemble learning)是通过构建并结合多个学习器来完成学习任务。在一些数据挖掘竞赛中经常需要对几个模型进行融合,这时候就可以用到集成学习算法。2.“个体学习器”分类 集成学习的一般结构:先产生一组“个体学习器”,再用某种策略把它们结合起来。“个体学习器”的分类有:(1)基学习器:集成中只包含同类型的个体学习器,即个体学习器由一个现有的学习...原创 2018-04-25 16:16:05 · 752 阅读 · 0 评论 -
机器学习经典算法总结(5)——强化学习
一.强化学习的概念1. 基础介绍强化学习模型根据输入学习一系列动作(action),而不同的动作会逐渐累计起来,在某些时候就会得到一些奖赏(reward)。执行某个动作并不能立即获得这个最终奖赏,只能得到一个当前反馈。机器要做的是通过在环境中不断尝试而学得一个策略(policy)。举一个相关实例:通常强化学习在游戏领域应用较多,输入就是当前的状态(如前后左右哪里有敌人,自身的技能CD值,红蓝条等等...原创 2018-06-08 11:05:19 · 3090 阅读 · 1 评论 -
机器学习经典算法总结(6)——聚类
一、聚类聚类属于无监督学习,是其中研究最多,应用最广的算法。作用:(1)作为一个单独过程,寻找数据内部分布结构(2)作为分类等其他学习任务的前驱过程性能度量:聚类性能度量亦称“有效性指标”,由此来评估聚类模型的好坏,并可将其作为聚类过程的优化目标。聚类的目标:簇内相似度(intra-cluster similarity)高且簇间相似度(inter-cluster similarity)低。两个基本...原创 2018-06-11 14:14:46 · 1359 阅读 · 0 评论