Machine Learning
文章平均质量分 84
西西噜噜
加油加油!
展开
-
机器学习小实战(一) 信用卡欺诈检测-逻辑回归的二分类
逻辑回归是一种经典的二分类算法,一般拿到分类任务时,会先用逻辑回归来试一下。 逻辑回归简单地讲,就是采用某种非线性/线性公式,计算出0-1之间的值,设置一个阈值,再进行分类目录一、读取数据,先了解一下二、数据预处理2.1 计算正常样本和异常样本的比例:pd.value_counts2.2 Amount 这列的数据标准化三、建立模型3.1 下采样方...原创 2018-07-31 15:47:49 · 3745 阅读 · 7 评论 -
机器学习小实战(二) 建立决策树
目录一、决策树简介二、构造决策树的小栗子三、随机森林进行决策四、通过交叉验证将各特征进行排序一、决策树简介决策树既可以分类,也可以回归。构造决策树两种方式:预剪枝/后剪枝难点:如何构造决策树,选什么特征作为结点。特点:根节点是分类效果最好的,其余次之、再次之。决策树停止划分结点的原因可能是:达到最大叶子节点数了、叶子结点样本数够少了、未达到划分结点的衡量标准(e...原创 2018-08-01 10:48:59 · 1187 阅读 · 0 评论 -
机器学习小实战(三) 贝叶斯实现拼写检查器
一、贝叶斯(Bayes)简介 贝叶斯老爷爷是一位有名的老人家!贝叶斯算法和概率有关,贝叶斯公式其实高中学过的,就是忘了而已。二、贝叶斯实现拼写检查器1. 原理argmaxc P(A|B)=argmaxc P(B|A) P(A) /P(B)P(A|B):待求的;用户本想本想输入B的前提下,错输成A的概率P(A):文章中出现正确单词A的概率P(B|A):用户本想...原创 2018-08-01 15:03:10 · 1702 阅读 · 1 评论 -
机器学习小实战(四) KMeans聚类
目录一、 KMeans聚类简介二、小案例四、 KMeans用于图像压缩一、 KMeans聚类简介需要事先指定簇的数目k优化目标:所有点到各自质心的距离之和最小 特点:受初始值(K个随机质心的位置)的影响挺大的、受形状的影响还有点大二、小案例读数据、算法实例化(设置参数),训练模型、展示与分析1. 读取数据,了解一下import numpy as np...原创 2018-08-01 16:05:35 · 3350 阅读 · 0 评论 -
机器学习实战(五) kaggle练习赛 泰坦尼克获救预测
这道题的主页:https://www.kaggle.com/c/titanic目录一、 读取数据,观察数据分布二、 数据预处理1. 填充缺失值2. 文字到数值的映射三、模型1. 用线性回归预测2. 用逻辑回归预测3. 用随机森林改进模型四、特征工程示例1. 如何自己构造特征2. 随机森林特征重要性分析一、 读取数据,观察数据分布import...原创 2018-08-02 12:06:47 · 3100 阅读 · 2 评论 -
机器学习小实战(六) XGBoost基本原理
一、xgboost原理1. 实践证明,tree boosting(树提升)可以有效地用于分类和回归任务中,提升方法是一种非常有效的机器学习方法,xgboost是提升的强化版本。2. 和决策树相关,集成了多个弱学习器。3. 提升算法,相当于一棵树一棵树地加,每加一棵树要使得总体的效果得到提升。4. 严谨地讲解:(1)如下图,这里用到了两棵树,第一棵树说小男孩去玩游戏的权是2,第二...原创 2018-08-24 14:34:17 · 394 阅读 · 0 评论