机器学习
文章平均质量分 87
idotc
这个作者很懒,什么都没留下…
展开
-
ID3 C4.5 CART决策树原理
目录一. ID31.1 信息增益1.2 损失函数二. C4.52.1 信息增益比2.2 损失函数三. CART3.1 基尼指数(分类树)3.2 损失函数(分类树)3.3 均方差最小(回归树)四. 区别参考一. ID31.1 信息增益 ID3算法构建决策树的过程简单概括起来就是,自根结点开始,选择信息增益最大的特征作为根结点对应的特征,并依据该特征的可能取值将训练数据分配到不同的子结点,对子结点进行同样的操作,若子结点的所原创 2021-07-09 23:03:30 · 524 阅读 · 2 评论 -
Task5:模型融合——二手车交易价格预测
一、内容介绍简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBD...原创 2020-04-04 22:12:54 · 248 阅读 · 0 评论 -
Task4:建模与调参——二手车交易价格预测
一、主要内容线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;嵌入式特征选择:Lasso回归;Ridge回归;决策树;模型对比:常用线性模型;常用非线性模型;模型调参:贪心调参方法;网格调参方法;贝叶...原创 2020-04-01 21:26:29 · 299 阅读 · 0 评论 -
Task3:特征工程——二手车交易价格预测
一、特征工程的常用方法特征工程的目的:通过上一步的特征分析,去构建有效的特征来拟合隐藏的规律。常用方法:A. 异常处理:a) 通过箱线图(或 3-Sigma)分析删除异常值;b) BOX-COX 转换(处理有偏分布);c) 长尾截断;B. 特征归一化/标准化:a) 标准化(转换为标准正态分布);b) 归一化(抓换到 [0,1] 区间);c) 针对幂律分布,可以采用公式:...原创 2020-03-24 22:48:57 · 346 阅读 · 0 评论 -
Task2:数据的探索性分析(EDA)——二手车交易价格预测
数据的探索性分析(EDA)数据分析流程动手实践数据分析流程目的: 主要为了熟悉特征。通过统计分析和可视化工具了解变量间的相互关系以及变量与预测值之间的存在关系,为接下来的特征工程作铺垫。载入数据数据总览:通过describe()来熟悉数据的相关统计量通过info()来熟悉数据类型判断数据缺失和异常查看每列的存在nan情况异常值检测了解预测值的分布总体分布概况(无界约翰逊分布...原创 2020-03-24 15:16:29 · 1320 阅读 · 0 评论 -
李宏毅机器学习中文课程作业二:预测赢家还是输家
一、作业要求给定训练集spam_train.csv,要求根据每个ID各种属性值来判断该ID对应角色是Winner还是Losser(收入是否大于50K),这是一个典型的二分类问题。训练集介绍:CSV文件,大小为4000行X59列;4000行数据对应着4000个角色,ID编号从1到4001;59列数据中, 第一列为角色ID,最后一列为分类结果,即label(0、1两种),中间的57列为角色...原创 2019-10-31 23:46:43 · 1128 阅读 · 0 评论 -
李宏毅机器学习中文课程作业一:预测PM2.5值
一、作业要求给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量。训练集介绍:CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见);每天的监测时间点为0时,1时…到23时,共24个时间节点;每天的检测指标包括CO、NO、PM2.5、PM10等气体浓...原创 2019-10-30 21:43:25 · 3413 阅读 · 0 评论 -
机器学习-K-Means聚类算法的实现(含tensorflow实现版)
一、概述K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。二、k-means算法流程结合代码具体分析流程:1. 准备数据,对数据进行可视化显示...原创 2019-07-02 15:57:45 · 887 阅读 · 0 评论 -
机器学习-多元线性回归及其手写实现梯度下降
一. k-多元线性回归简介1.在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。2.多元线性回归算法步骤:解析数据集,分割特征和label定义损失函数定义梯度下降函数根据特征数量初始化构建权重...原创 2019-04-30 23:25:41 · 1502 阅读 · 1 评论 -
机器学习-非线性逻辑斯特回归及其手写实现梯度下降
一. 非线性逻辑斯特回归简介逻辑斯特回归在上一篇博客中已经简单地介绍了一下(链接)。非线性的实际用处要广泛,接下来看逻辑斯特回归在非线性中的应用。二. Python 代码手写实现1. 解析数据集,分割特征和label这里我们自己构建了一个非线性数据,总共两类数据,每类数据200个样本。每类数据中加了一些随机的噪声,接下来看数据分布图如下所示:2. 非线性特征处理对特征的处理,我们...原创 2019-05-05 14:52:52 · 305 阅读 · 0 评论 -
机器学习-逻辑斯特回归及其手写实现梯度下降
一. 逻辑斯特回归简介本章介绍的另一种模型:模型斯特回归(logistic regression)。它实质上是一个线性分类器。在之前介绍的线性分类器中,h(x)=Θ*x+Θ0,如果h(x)>0,则样本x属于正类,否定x属于负类。直观上的认识,如何h(x)越大,我们更加确信样本属于正类,相应的,h(x)越小,我们更加确信样本属于负类,而h(x)在0之间徘徊,很难确信属于某一类。为了与概率统...原创 2019-05-03 22:02:38 · 777 阅读 · 0 评论 -
机器学习-朴素贝叶斯及其手写实现
一、简介1、朴素贝叶斯的基本思想就是:给出一个分类问题,对于待求项,属于哪个分类的概率最大,那这个待求项就属于哪个分类。2、如给出假设场景,要分类物有n个特征,分别为F1、F2、F3、…、Fn,现在有m个类别分别是C1、C2、C3、…、Cm。贝叶斯就是计算出概率最大的那个分类。二、原理准备知识贝叶斯条件概率的计算公式(核心)::---------原创 2019-04-12 23:13:24 · 619 阅读 · 0 评论 -
机器学习-一元线性回归及其手写实现梯度下降
一、简介线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。这篇的主题是一元线性回归,下篇将讲到多元线性回归。二、原理损失函数:最...原创 2019-04-15 23:26:15 · 897 阅读 · 0 评论