机器学习
数据小白的进阶之路
数据小白的进阶之路。。。
展开
-
机器学习—决策树算法学习笔记
最近真的忙的要死,不过还是要学习的,今天打算写一篇关于机器学习的学习笔记~一、决策树简介 首先决策树是一种有监督的机器学习算法,其采用的方法是自顶向下的递归方法,构建一颗树状结构的树,其具有分类和预测功能。其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零。决策树的构建通常分为三个步骤:1、特征选择 特征选择就是要选取具有较强分类能力...翻译 2018-07-15 15:02:51 · 383 阅读 · 0 评论 -
机器学习笔记之模型的评价指标小结
当我们训练好模型后,我们要对得到的模型作出评价,那我们怎么评价我们的模型呢,主要有如下指标:一、对于回归模型,主要从下面四个指标出发:1、explained_variance_score:解释回归模型的方差得分,其值取值范围是[0,1],越接近于1说明自变量越能解释因变量的方差变化,值越小说明效果越差。2、mean_absolute_error:平均绝对误差(Mean Absolut...原创 2018-09-02 18:19:57 · 5203 阅读 · 0 评论 -
机器学习笔记之交叉验证
在评估算法的效果时,为什么要进行交叉验证呢,查看了官方说明文档后,对交叉验证做了如下的描述:在了解交叉交叉验证之前,我们先了解如下知识:过拟合:是指所建立的机器学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。为了避免这种情况,通常的做法是执行(监督)机器学习实验时将部分可用数据作为测试集 。关于测试集和训练集的划分,sklearn模型中有如下方法:#导入...原创 2018-08-14 13:01:19 · 1401 阅读 · 0 评论 -
机器学习笔记之线性回归技术
一、概念 线性回归是一种有监督的回归分析技术,其是找出自变量与因变量之间的因果关系,本质上是一个函数估计的问题。回归分析的因变量应该是连续变量,若因变量为离散变量,则问题就转化为分类问题。回归分析主要应用场景为预测,常用的算法有如下:线性回归、二项式回归、岭回归、Lasso等。二、模型的表达式及推导现有如下训练集:D={(X1,Y1),(X2,Y2),...,(Xn...原创 2019-09-14 13:12:11 · 3165 阅读 · 0 评论 -
机器学习笔记之-Kmeans
今天来聊聊聚类分析中最基础的一个算法:Kmeans。Kmeans思想及算法流程: 首先Kmeans是一种无监督的聚类算法。对于给定的样本集,按照样本之间的距离大小,将样本划分为K个簇,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。算法流程:1、给各个簇中心以适当的初值。2、更新样本x1,x2,...,xn对应的簇标签y1,y2,...,yn。 ...原创 2018-08-05 16:50:59 · 24225 阅读 · 3 评论 -
机器学习笔记之—数据的标准化
数据的标准化是一个比较常用的数据预处理方法,其目的是处理不同量纲的数据,使其缩放到相同的数据区间和范围,以减少规模,特征、分布差异对模型的影响。标准化后的数据还具有了直接计算并生成符合指标的意义。数据的标准化主要有以下四种方法:1、实现中心化和正态分布的Z-score2、实现归一化的Max-Min3、用于稀疏矩阵的MaxAbs4、针对离群点的RobustSca...原创 2018-08-06 13:58:05 · 4285 阅读 · 0 评论 -
基于余弦夹角计算句子相似度的应用——房型名称匹配
项目背景: 将平台所售卖的房型与竞争对手的房型进行匹配,以节省人力及提高效率和匹配准确率~数据的处理: 竞对的房型名称相对于平台来说,显得非常的复杂,但是配合平台的强大的业务能力,在和运营人员讨论数据清洗规则方面花费了大量的时间,不过好在最后的数据清洗的已经足够干净了,不过这部分数据量庞大,已经在hive上面进行清洗好了。(ps:个人认为数据库真是的一个强大的...原创 2018-07-31 18:21:11 · 1977 阅读 · 0 评论 -
机器学习笔记之-数据共线性的问题
在将数据放入到模型中进行训练时,经常需要检验各维度之间的可能存在的多重共线性的问题,本文将着重讲解将如何识别和解决多重共线性的问题~多重共线性: 其是指模型中的自变量之间存在较强的线性关系,多重共线性的存在不仅会导致模型的过拟合,而且还会导致回归模型的稳定性和准确性大大的降低。因此对于多重共线性的识别和解决就变得尤其重要。容易出现多重共线性的场景:1...转载 2018-08-08 15:47:06 · 9514 阅读 · 0 评论 -
windows下Xgboost算法包的安装
以前在安装xgb算法包时,看了网上很多篇教程都没有成功,但最后还是找到了解决方法,恰好最近在整理笔记就与大家分享一下:安装成功得益于如下网站下载的一个xgboost安装包的whl文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/通过Ctrl+F后输入xgboost回车就可以到达xgboost所在的目录。根据自己的电脑系统选择对应的安装包,我的电...原创 2018-09-17 13:58:11 · 2089 阅读 · 0 评论