机器学习
文章平均质量分 87
秀球Gang
北京交通大学软件学院本科生
展开
-
「吃瓜记」第6章 支持向量机
「吃瓜记」第6章 支持向量机6.1 间隔与支持向量6.2 对偶问题6.3 核函数6.4 软间隔与正则化6.5 支持向量回归6.6 核方法参考资料6.1 间隔与支持向量算法原理:从几何角度,对于线性可分数据集,支持向量机就是找距离正负样本都最远的超平面,相比于感知机,其解是唯一的,且不偏不倚,泛化性能好。支持向量 support vector:距离超平面最近的这几个训练样本点使上式的等号成立。间隔 margin:两个异类支持向量到超平面的距离之和。欲找到具有**最大间隔(maximum margi原创 2021-07-30 00:07:08 · 227 阅读 · 0 评论 -
「吃瓜记」第5章 神经网络
「吃瓜记」第5章 神经网络5.1 神经元模型5.2 感知机与多层网络5.3 误差逆传播算法5.4 全局最小与局部最小5.5 其他常见神经网络5.6 深度学习参考资料5.1 神经元模型神经网络 neural networks:由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。神经元模型 neuron:神经网络中最基本的单元。M-P神经元模型:神经元接收到n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接传递给细胞体,神经元接收到的总原创 2021-07-25 23:05:23 · 249 阅读 · 0 评论 -
「吃瓜记」第4章 决策树
「吃瓜记」第4章 决策树4.1 基本流程4.2 划分选择4.2.1 ID3决策树4.2.2 C4.5决策树4.2.3 CART算法4.3 剪枝处理4.4 连续与缺失值参考资料4.1 基本流程算法原理从逻辑角度,一堆 if else 语句的组合从几何角度,根据某种准则划分特征空间关键:如何选择最优划分属性最终目的:将样本约分约“纯”决策树的构造是一个递归的过程,有三种情形会导致递归返回:当前结点包含的样本全属于同一类别,这时直接将该节点标记为叶节点,并设为相应的类别;当前属性集为空,或原创 2021-07-22 23:42:14 · 163 阅读 · 0 评论 -
「吃瓜记」第3章 线性模型
「吃瓜记」第3章 线性模型3.1 基本形式3.2 线性回归3.3 对数几率回归3.4 线性判别分类3.5 多分类学习3.6 类别不平衡问题参考资料3.1 基本形式线性模型:试图学得一个通过属性的线性组合来进行预测的函数,即:一般用向量形式写成:在线性模型的基础上通过引入层级结构或高维映射可得到许多功能更为强大的非线性模型(nonlinear model)。w 直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性(comprehensibility)。3.2 线性回归线性回归 li原创 2021-07-19 22:47:31 · 154 阅读 · 0 评论 -
「吃瓜记」第2章 模型评估与选择
「吃瓜记」第2章 模型评估与选择2.1 经验误差与过拟合2.2 评估方法2.2.1 留出法 hold-out2.2.2 交叉验证法 cross validation2.2.3 自助法 bootstrapping2.3 性能度量2.4 比较验证2.5 偏差与方差参考资料2.1 经验误差与过拟合错误率 error rate:分类错误的样本占样本总数的比例。精度 accuracy:1 - 错误率。误差 error:学习器的实际预测输出与样本的真实输出之间的差异。训练误差/经验误差 training/em转载 2021-07-13 23:55:21 · 85 阅读 · 0 评论 -
「吃瓜记」第1章 绪论
「吃瓜记」第1章 绪论1.1 引言1.2 基本术语1.3 假设空间1.4 归纳偏好参考资料1.1 引言机器学习(machine learning)是什么?定义:机器学习是致力于研究如何通过计算的手段,利用经验(数据)来改善系统自身的性能的学科。研究的主要内容:是从数据中产生“模型”的算法,即”学习算法“(learn algorithm)。目标:使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好。1.2 基本术语示例/样本 sample:数据集中的每条记录是关于一个事件或对象原创 2021-07-13 22:45:48 · 81 阅读 · 0 评论 -
深度学习小白如何看懂神经网络模型/图?
深度学习小白如何看懂神经网络模型/图?神经网络的图还是比较容易看懂的,比电路图什么的要好懂多了。只是刚开始接触有些不习惯罢了,多看一些就好了。下面举几张神经网络图作为例子(由简单到复杂)。简单的3层网络下图是一个非常简单的3层网络。首先,我们注意到有一些圆形,它们表示神经元。然后,竖着看,这些神经元组成的“列”称为网络层。灰色的神经元构成输入层和输出层,中间黑色的神经元构成隐藏层。然后,神经元之间有一些线互相连接,这些线称为连接。在上图中,每层中的每个神经元都和下一层中的每个神经元连接,这称为转载 2021-04-20 14:23:00 · 6707 阅读 · 1 评论 -
「数据科学」天池金融风控-贷款违约预测模型融合
天池金融风控-贷款违约预测模型融合1. 学习目标2. stacking / blending详解3. 代码示例3.1 平均3.2 投票3.3 Stacking:3.4 blending4. 经验总结1. 学习目标上四篇文章介绍了天池“金融风控-贷款违约预测”的赛题分析、数据分析、特征工程和建模调参。「机器学习」天池金融风控-贷款违约预测赛题分析「数据科学」天池金融风控-贷款违约预测数据分析「数据科学」天池金融风控-贷款违约预测特征工程「数据科学」天池金融风控-贷款违约预测建模调参该篇文章为第五原创 2020-09-28 01:06:21 · 1311 阅读 · 1 评论 -
「数据科学」天池金融风控-贷款违约预测建模调参
天池金融风控-贷款违约预测建模调参1. 学习目标2. 模型相关原理介绍2.1 逻辑回归模型2.2 决策树模型2.3 GBDT模型2.4 XGBoost模型2.5 LightGBM模型2.6 Catboost模型2.7 时间序列模型2.8 推荐教材3. 模型对比与性能评估3.1 逻辑回归3.2 决策树模型3.3 集成模型集成方法 (ensemble method)3.4 模型评估方法3.5 模型评价标准4. 代码示例4.1 导入相关设置4.2 读取数据4.3 简单建模4.4 模型调参5. 经验总结1. 学习原创 2020-09-24 23:32:49 · 714 阅读 · 0 评论 -
「数据科学」数据科学研究|竞赛的基本步骤
数据科学研究|竞赛的基本步骤0. 基本步骤1. 问题建模1.1 问题/赛题理解1.1.1 业务理解1.1.2 数据理解1.1.3 评价指标1.2 线下验证1.2.1 时序验证1.2.2 K折交叉验证2. 数据分析2.1 了解数据2.2 数据探索性分析(EDA)3. 特征工程3.1 数据预处理3.2 特征提取3.3 特征选择4. 必备模型5. 模型融合6. 模型优化0. 基本步骤1. 问题建模1.1 问题/赛题理解1.1.1 业务理解1.1.2 数据理解每种数据集之间的关系数据中缺失值情况原创 2020-09-22 17:40:09 · 254 阅读 · 0 评论 -
「机器学习」天池金融风控-贷款违约预测赛题分析
天池金融风控-贷款违约预测赛题分析1. 赛题背景2. 赛题数据3. 评价指标4. 赛题流程5. 代码示例5.1 数据读取pandas5.2 分类指标评价计算示例6. 经验总结7. 拓展知识——评分卡1. 赛题背景赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。比赛地址:https://tianchi.aliyu原创 2020-09-15 22:34:27 · 2589 阅读 · 0 评论 -
「机器学习」分类算法常见的评估指标
分类算法常见的评估指标1. 混淆矩阵(Confuse Matrix)1. 混淆矩阵(Confuse Matrix)(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative ) 混原创 2020-09-13 14:36:46 · 1610 阅读 · 1 评论