机器学习
语亦情非
进步是留给时间最好的礼物
展开
-
机器学习之 基于xgboost的特征筛选
本文主要是基于xgboost进行特征选择,很多人都知道在后面的模型选择时,xgboost模型是一个非常热门的模型。但其实在前面特征选择部分,基于xgboost进行特征筛选也大有可为。#coding=utf-8import pandas as pdimport xgboost as xgbimport os,random,pickleos.mkdir('featurescore'...原创 2020-03-19 01:15:43 · 4217 阅读 · 1 评论 -
Logistic 回归—网格搜索最优参数笔记
1、准备# 首先 import 必要的模块import pandas as pd import numpy as np from sklearn.model_selection import...转载 2020-03-18 14:00:35 · 1385 阅读 · 0 评论 -
机器学习之xgbboost调参(网格搜索和交叉验证)
调参步骤:n_estimators max_depth 、min_child_weight gamma subsample、colsample_bytree reg_alpha、reg_lambda learning_rate下面这段网上摘抄的,应该要加上 预测测试集import xgboost as xgbfrom xgboost.sklearn import ...原创 2020-03-17 01:59:18 · 3541 阅读 · 0 评论 -
机器学习之recall、precision、accuracy
精确率, 准确率和召回率是广泛用于信息检索和统计学分类领域的度量值,用来评价结果的质量。下图可以帮助理解和记忆它们之间的关系, 其中精确率(precision)和准确率(accuracy)都是关于预测效果的描述. 召回率是关于预测样本的描述。精确率表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP), 也...原创 2020-03-14 18:49:46 · 1372 阅读 · 0 评论 -
机器学习之SVM(粗略的笔记)
SVM引入SVM是SupportVectorMachine的简称,它的中文名为支持向量机,属于一种有监督的机器学习算法,可用于离散因变量的分类和连续因变量的预测。通常情况下,该算法相对于其他单一的分类算法(如Logistic回归、决策树、朴素贝叶斯、KNN等)会有更好的预测准确率,主要是因为它可以将低维线性不可分的空间转换为高维的线性可分空间。由于该算法具有较高的预测准确...原创 2020-03-12 18:05:27 · 533 阅读 · 0 评论 -
机器学习之KNN
KNN模型引入与决策树功能类似,既可以针对离散因变量做分类,又可以对连续因变量做预测,其核心 思想就是比较已知y值的样本与未知y值样本的相似度,然后寻找最相似的k个样本用作未知样 本的预测。K最近邻算法,顾名思义就是搜寻最近的k个已知类别样本用于未知类别样本的预测。“最 近”的度量就是应用点之间的距离或相似性。距离越小或相似度越高,说明它们之间越近,关 于样本...原创 2020-03-11 18:53:57 · 427 阅读 · 0 评论 -
机器学习之层次聚类
层次聚类引入层次聚类跟kmeans聚类一样不适合非球样本,密度聚类DBSCAN就可以很好的聚类非球样本并且密度聚类可以非常方便地发现数据中的异常点。层次聚类的实质是计算各簇内样本点之间的相似度,并通过相似度的结果构建凝聚或分 裂的层次树。凝聚树是一种自底向上的造树过程,起初将每一个样本当作一个类,然后通过计 算样本间或簇间的距离进行样本合并,最终形成一个包含所有样本的大簇;分裂...原创 2020-03-11 18:48:05 · 435 阅读 · 0 评论 -
机器学习之密度聚类算法DBSCAN
密度聚类引入前面介绍了有关Kmeans聚类算法的理论和实战,也提到了该算法的两个致命缺点,一 是聚类效果容易受到异常样本点的影响;二是该算法无法准确地将非球形样本进行合理的聚 类。为了弥补Kmeans算法的两方面缺点,本章将介绍另一种聚类算法,即基于密度的聚类 DBSCAN(Density-Based Special Clustering of Applications w...原创 2020-03-11 18:40:07 · 1202 阅读 · 0 评论 -
机器学习之stacking
stacking过程详解:import numpy as np# from sklearn import metricsfrom sklearn.cross_validation import train_test_split from sklearn.datasets import load_breast_cancerfrom sklearn.cr...原创 2020-03-10 13:34:18 · 430 阅读 · 0 评论 -
机器学习之blending
原理:两层N个模型的blending原理1,将训练集分为两部分(train1,train2),test。2,第一层:对train1训练m个模型,预测train2 会得到m列预测值,组成新训练集X1 预测test会得到m列预测值,组成新测试集X23,用第一层输出的X1和train2的y作为第二层的训练集,训练一个模型后,预测X2代码参考:from sklearn i...原创 2020-03-10 10:17:03 · 149 阅读 · 0 评论 -
机器学习之GBDT构建新特征
GBDT构建新的特征思想特征决定模型性能上界,例如深度学习方法也是将数据如何更好的表达为特征。如果能够将数据表达成为线性可分的数据,那么使用简单的线性模型就可以取得很好的效果。GBDT构建新的特征也是使特征更好地表达数据。主要思想:GBDT每棵树的路径所代表的特征组合直接作为LR的输入特征使用。用已有特征训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,最后把这些新特征加入原...原创 2020-03-10 00:56:34 · 950 阅读 · 0 评论 -
机器学习之SMOTE算法
为了解决数据的非平衡问题,2002年Chawla提出了SMOTE算法,即合成少数过采样技 术,它是基于随机过采样算法的一种改进方案。该技术是目前处理非平衡数据的常用手段,并 受到学术界和工业界的一致认同,接下来简单描述一下该算法的理论思想。 SMOTE算法的基本思想就是对少数类别样本进行分析和模拟,并将人工模拟的新样本添 加到数据集中,进而使原始数据中的类别不再严重失衡。该算...原创 2020-03-09 17:34:16 · 2110 阅读 · 0 评论 -
决策树(decision tree)——缺失值处理
https://blog.csdn.net/u012328159/article/details/79413610原创 2020-03-09 17:32:54 · 1136 阅读 · 0 评论 -
机器学习之xgboost
1.XGBoost引入XGBoost是由传统的GBDT模型发展而来的,在上一节中,GBDT模型在求解最优化问题 时应用了一阶导技术,而XGBoost则使用损失函数的一阶和二阶导,更神奇的是用户可以自定 义损失函数,只要损失函数可一阶和二阶求导。除此,XGBoost算法相比于GBDT算法还有其 他优点,例如支持并行计算,大大提高算法的运行效率;XGBoost在损失函数中加入了正...原创 2020-03-09 02:33:08 · 335 阅读 · 0 评论 -
机器学习之gbdt
1、梯度提升树GBDT回归GBDT模型对数据类型不做任何限制,既可以是连续的数值型,也可以是离散的字符型 (但在Python的落地过程中,需要将字符型变量做数值化处理或哑变量处理)。相对于SVM模型 来说,较少参数的GBDT具有更高的准确率和更少的运算时间,GBDT模型在面对异常数据时 具有更强的稳定性。由于上面的种种优点,使得越来越多的企业或用户在数据挖掘或机器学 习过程中...原创 2020-03-08 13:29:37 · 508 阅读 · 0 评论 -
tfidf缺点及改进
https://blog.csdn.net/qq_34333481/article/details/84256190原创 2020-03-07 07:14:11 · 1692 阅读 · 0 评论 -
机器学习 集成学习之boosting AdaBoost
一、AdaBoost简介Boosting, 也称为增强学习或提升法,是一种重要的集成学习技术, 能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器,这在直接构造强学习器非常困难的情况下,为学习算法的设计提供了一种有效的新思路和新方法。其中最为成功应用的是,Yoav Freund和Robert Schapire在1995年提出的AdaBoost算法。Ad...原创 2020-03-07 18:15:01 · 340 阅读 · 0 评论 -
机器学习 集成学习各算法-gbdt,xgboost,lightgbm比较及优缺点特征总结
随机森林优点具有极高的准确率 随机性的引入,使得随机森林不容易过拟合,有很好的抗噪声能力,对异常点离群点不敏感 能处理很高维度的数据,并且不用做特征选择 既能处理离散型数据,也能处理连续型数据,数据集无需规范化(归一化) 实现简单,训练速度快,可以得到变量重要性排序(计算每个特征在分裂时被选到的次数或者某个特征不纯度平均下降了多少) 容易实现并行化 在创建随机森林的时候,对gen...原创 2020-03-07 14:59:27 · 10173 阅读 · 1 评论 -
机器学习之随机森林(RF)
随机森林模型收到低偏差和高方差问题的困扰,应该如何解决低偏差意味着模型的预测值接近实际值。换句话说,该模型有足够的灵活性,以模仿训练所有数据的分布。貌似很好,但是别忘了,一个过于灵活的模型是没有泛化能力的。这意味着,当这个模型用在对一个未曾见过的数据集进行测试的时候,它会令人很失望。在这种情况下,我们可以使用bagging算法(如随机森林),以解决高方差问题。bagging...原创 2020-03-06 11:21:25 · 5326 阅读 · 0 评论 -
机器学习之朴素贝叶斯
转载:简述朴素贝叶斯算法原理和工作流程事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A。所以有:对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。工作原理:假设现在有样本这个待分类项(并认为x中的特征独立)。再假设现在有分类目标那么就是最终的分类类别。而因为x对于每个分类目标来说都一样,...转载 2020-03-05 20:05:49 · 1974 阅读 · 0 评论 -
机器学习之决策树
决策树原理简述决策树是一类常见的机器学习方法,它是基于树的结构进行决策的。每次做决策时选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一个类别,即节点的“纯度”(purity)越来越高。决策树学习算法包含特征选择、决策树的生成与剪枝过程。决策树的学习算法通常是递归地选择最优特征,并用最优特征对数据集进行分割。开始时,构建根节点,选择最优特征,...转载 2020-03-05 11:36:19 · 1029 阅读 · 0 评论 -
数据挖掘面试题之逻辑回归lr
逻辑回归面试题1.逻辑斯蒂回归推导逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。2.简述一下线性回归3.为什么逻辑斯特回归中使用最大似然函数求得的参数是最优可能的参数值?4.逻辑回归是线性模型吗?5.逻辑回归做分类的样本应该满足什么分布?6.逻辑回归输出的值是0到1之间的值,这个值是真实的概率吗?7.逻辑...原创 2019-07-19 11:13:00 · 2147 阅读 · 0 评论 -
集成学习-bagging,boosting介绍
https://blog.csdn.net/colourful_sky/article/details/82082854python实现随机森林原创 2020-03-04 16:10:08 · 307 阅读 · 0 评论 -
特征选择
https://www.cnblogs.com/Ann21/p/11722339.html特征选择-随机森林可以衡量特征的重要程度https://www.julyedu.com/question/big/kp_id/23/ques_id/1058 特征选择原创 2020-03-04 10:18:35 · 138 阅读 · 0 评论 -
决策树面试总结
1、概括顾名思义,决策树就是一棵树,一颗决策树包含一个根节点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶子结点的路径对应了一个判定测试序列。决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分...转载 2020-03-03 18:04:22 · 279 阅读 · 0 评论