机器学习算法
炼丹大法
这个作者很懒,什么都没留下…
展开
-
随机森林算法梳理
1. 集成学习概念集成学习是通过构建并结合多个学习器来完成学习任务的,其往往能获得比单一学习器显著优越的泛化性能。2. 个体学习器概念个体学习器分为两种,一种是同质集成中的个体学习器,又称基学习器,相应的学习算法称为基学习算法,主要有决策树和神经网络;另一种为异质集成中的个体学习器,是由不同的学习算法生成的。3. 集成学习方法3.1 BoostingBoosting方法训练基分类器...原创 2018-12-19 01:53:40 · 298 阅读 · 0 评论 -
机器学习常用评价指标
1.准确率、召回率、精确率准确率是指分类正确的样本个数占总样本个数的比例。准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷。比如,但负样本占99%时,分类器把所有样本预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不平衡时,占比大的类别往往称为影响准确率的最主要因素。精确率(Precision)是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。...原创 2019-03-03 21:04:55 · 350 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯的原理:基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结果得出后验概率。1.1 基本定义分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,x...原创 2019-03-10 17:12:42 · 182 阅读 · 0 评论 -
机器学习面试题目
1、逻辑斯特回归为什么要对特征进行离散化?解析:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:a. 离散特征的增加和减少都很容易,易于模型的快速迭代;b. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;c. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则...原创 2019-03-18 00:09:19 · 2319 阅读 · 0 评论 -
特征选择
特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。一、特征选择的一般流程特征选择的过程主要分为产生过程,评估过程,停止条件和验证过程。*二、 具体特征选择方法根据特征选择...原创 2019-03-23 11:01:09 · 429 阅读 · 0 评论