数据挖掘(DM)
达瓦里氏吨吨吨
待万事以俱诚。
展开
-
【三部曲01】从CART到GBDT
参考文章引用来源:1.GBDT入门教程之原理、所解决的问题、应用场景讲解2.《统计学习方法》李航3.Question1. 首先明确,GBDT是做什么用的??GBDT (Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来...原创 2018-11-20 18:43:26 · 1958 阅读 · 0 评论 -
采样
参考文献1.《百面机器学习》2.《》3.Python中的两种随机数机制4.5.原创 2019-05-24 15:49:13 · 5548 阅读 · 0 评论 -
概率图模型学习笔记
参考文献1.概率图模型2.概率图模型学习笔记:HMM、MEMM、CRF3.Hulu – 《百面机器学习》4.李航 – 《统计学习方法》5.周志华 --《机器学习》6.知乎博客7.8.概率图模型(PGM),简称图模型(GM),是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型。常见图模型结构对于一个K维随机向量来说,它的联合概率为高维空间中的分布,一般难以直接建...原创 2019-05-24 16:08:22 · 1815 阅读 · 0 评论 -
关于正负样本不平衡问题的解决方法收集整理
参考文献1.如何解决机器学习中数据不平衡问题2.Learning from imbalanced data 原文3.对于正负样本不均衡的解决方法4.2中论文的翻译总结一、 问题背分析1.背景在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”...原创 2019-05-26 13:01:22 · 12660 阅读 · 0 评论 -
L1正则和L2正则的比较分析
参考文献1.L1正则和L2正则的比较分析详解2.比较全面的L1和L2正则化的解释3.正则化项L1和L2的区别4.L1 相比于 L2 为什么容易获得稀疏解?概括:L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。一、概念的介绍1.L1-norm(L1范数)X的 L1-norm 的定义为:这个范数在范数家族中相当常见,它有很多名字和...原创 2019-05-28 23:31:33 · 15895 阅读 · 1 评论 -
随机森林学习整理
参考文献1.python机器学习——随机森林算法(Random Forest)2.机器学习算法之随机森林算法详解及工作原理图解3.随机森林4.RandomForest:随机森林5.随机森林(Random Forest)算法原理基调:侧重理清集成学习思想;以及偏差方差权衡的这里的体现;整体把握:集成学习(ensemble)思想是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整...原创 2019-06-01 00:36:39 · 2636 阅读 · 0 评论 -
交叉熵与KL散度
参考文献1.对数损失函数(Logarithmic Loss Function)的原理和 Python 实现2.交叉熵与KL散度3.深度学习剖根问底:交叉熵和KL散度的区别4.详解机器学习中的熵、条件熵、相对熵和交叉熵5.为什么交叉熵(cross-entropy)可以用于计算代价?6.机器学习中的基本问题——log损失与交叉熵的等价性核心:KL散度=交叉熵-熵对于给定训练集,熵是已...原创 2019-05-29 14:56:28 · 6612 阅读 · 1 评论 -
对SVM中核函数的理解
参考文献1.核函数(kernekl)最通俗易懂的理解2.核函数的理解一3.关于核函数的一些思考4.形象透彻理解核函数5.机器学习之核函数一、核函数定义设X是输入空间(欧氏空间或离散集合),Η为特征空间(希尔伯特空间),如果存在一个从X到Η的映射φ(x): X→Η使得对所有的x,y∈X,函数Κ(x,y)=φ(x)∙φ(y),则称Κ(x,y)为核函数,φ(x)为映射函数,φ(x)...原创 2019-05-29 22:35:02 · 4795 阅读 · 0 评论 -
关于Logistic和softmax的原理和关系整理
参考文献1.Logistic回归原理及公式推导2.Softmax算法:逻辑回归的扩展3.牛顿法与拟牛顿法,DFP法,BFGS法,L-BFGS法4.SGDClassifier和LR,SVM的区别一、原理这个直接参考上面的博客1和博客2,写的很详细,参考价值很高;二、Logistic回归和Softmax的关系一句话总结:Softmax是Logictic回归的扩展(从二分类推广到多分...原创 2019-06-02 22:56:18 · 946 阅读 · 0 评论 -
【三部曲03】从XGBoost到LightGBM
参考文献引用来源:1.lightgbm论文翻译2.lightgbm论文翻译解读3.LightGBM——提升机器算法(图解+理论+安装方法+python代码)4.论文原文下载Question1. LightGBM提出的原因或者说背景是什么?概括:面对稀疏、大数据场景,计算方式过于耗时我们知道在LightGBM出现之前,已经有了例如 XGBoost 这样的优化很细致的工程实现。但是尽管...原创 2019-06-27 15:31:26 · 541 阅读 · 0 评论 -
关于CTR方法的发展过程
https://blog.csdn.net/lilyth_lilyth/article/details/48032119https://blog.csdn.net/lovejay7/article/details/81878537https://blog.csdn.net/muyimo/article/details/82834604https://zhuanlan.zhihu.com/p/...原创 2019-07-15 23:02:39 · 779 阅读 · 0 评论 -
Stacking与Blending以及相关的heamy库的使用收集
参考文献1.heamy官方文档2.heamy的github仓库3.heamy库中核心模块的介绍博客4.heamy库使用示例一、关于Stacking和Blending的比较核心区别:前者基于交叉验证,后者基于留出法很多人stack和blend是混着叫的,所以不必纠结这个名字,不要着相。只要知道:【1】stack是用cv交叉验证来得出元模型的特征(一个基模型产出一个元特征作为二级模型...原创 2019-09-01 13:01:42 · 1063 阅读 · 0 评论 -
Jdata2019比赛小结
占个坑,回来再填。原创 2019-05-20 16:27:08 · 914 阅读 · 0 评论 -
无监督学习:自组织映射网络(SOM)原理
参考文献:1.系统学习机器学习之神经网络(四) --SOM待完善整理原创 2019-05-09 14:19:15 · 3661 阅读 · 1 评论 -
关于numpy、pandas、matplotlib、SciPy使用中一些问题的不定期收集整理
1.这几个组件的关系?答:这几个都是python中的库。都需要import使用。【1】其中numpy是python进行科学计算的基础包,核心关注快速高效的数据读写处理,包括和其他语言间的配合,当然它也包含众多对数组的元素级操作以及相关数学运算函数。【2】而pandas是使得python真正成为高效强大数据分析环境的重要因素,它兼具numpy高性能的数组计算功能以及Excel和SQL灵活的数据...原创 2018-11-29 16:31:24 · 326 阅读 · 0 评论 -
07数据聚合与分组运算
1.Groupy技术核心思想:拆分-应用-合并step1. pandas对象会根据你所提供的一个或多个键被拆分为多组;step2. 将一个函数应用到各个分组并产生一个新值;step3. 最后所有这些函数的执行结果会被合并到最终的结果对象中;data=pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','...原创 2018-11-29 22:02:08 · 203 阅读 · 0 评论 -
【Q001】sklearn的LabelEncoder使用问题处理
在进行数据清洗过程中,为了便于计算处理,需要对字符串类型特征进行编码操作。sklearn中的LabelEncoder方法可以支持这一操作。具体用法这里博主讲的比较清楚了,下面记录一下遇到的问题。#数据清洗操作def data_clean(op,trans): # 对操作表中的每个特征进行编码(1,2,3....) for feature in op.columns[2:]...原创 2018-11-27 14:56:01 · 3632 阅读 · 0 评论 -
【处理流程03】特征选择
参考文献:1.sklearn文档2.博客目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方...原创 2018-12-01 17:51:16 · 233 阅读 · 0 评论 -
【处理流程01】特征提取
1.sklearn文档从流程上,特征提取在特征选择之前,与特征选择有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。可以理解为:特征提取是最前端的接口工作,负责将原始数据读入计算机,虽然数据完全没有处理,但是这是一切后续工作的第一步,相当于“粮食”。而后针对读入的原始数据,才进行特征选择的各项流程,相当于一个精细化的过程。...原创 2018-12-01 20:34:40 · 820 阅读 · 0 评论 -
【处理流程00】管理流程神器Pipeline(管道)
1.整体把握:Pipeline(管道)正如名字一样,直观上理解是用于对数据处理各个流程进行规范化统一管理的工具。Pipeline 可以把多个评估器链接成一个。这个是很有用的,因为处理数据的步骤一般都是固定的,例如特征选择、标准化和分类。特点:【1】便捷性和封装性你只要对数据调用 fit和 predict一次来适配所有的一系列评估器。【2】联合的参数选择你可以一次 :ref:grid ...原创 2018-12-01 23:22:15 · 1691 阅读 · 0 评论 -
【模型选择与评估01】交叉验证
1.参考文献sklearn文档交叉验证本质上属于机器学习模型外围的辅助手段,其针对的是在实际模型训练过程中,存在的过拟合问题而提出的解决方法。1.最基本的数据集划分基于的是sklearn中的train_test_split函数,实现数据集按指定比例划分为训练集和测试集(下面例子里比例为0.4)之所以说是最基本的划分方法,是因为仅基于比例做了单次划分。>>> impor...原创 2018-12-03 12:04:25 · 726 阅读 · 0 评论 -
【模型选择与评估02】调整估计器的超参数
1.参考文献sklearn文档背景:超参数,即不直接在估计器内学习的参数。在 scikit-learn 包中,它们作为估计器类中构造函数的参数进行传递。搜索超参数空间以便获得最好分数的方法是可能的而且是值得提倡的。通过这种方式,构造估计器时被提供的任何参数或许都能被优化。具体来说,要获取到给定估计器的所有参数的名称和当前值,使用:estimator.get_params()搜索包括:...原创 2018-12-03 17:44:44 · 377 阅读 · 0 评论 -
【模型选择与评估04】模型持久化
1.参考文献sklearn文献可以通过使用 Python 的内置持久化模型将训练好的模型保存在 scikit 中,它名为 pickle>>> from sklearn import svm>>> from sklearn import datasets>>> clf = svm.SVC()>>> iris = da...原创 2018-12-03 20:54:42 · 142 阅读 · 0 评论 -
【模型选择与评估03】模型评估: 量化预测的质量
1.参考文献sklearn文档有 3 种不同的 API 用于评估模型预测的质量:【1】Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是在每个 estimator (估计器)的文档中会有相关的讨论...原创 2018-12-03 22:30:34 · 438 阅读 · 0 评论 -
【Feature-Engineering-01】引言
引用来源:翻译文档一、引言机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习流水线中特征位于数据和模型之间。特征工程是一项从数据中提取特征,然后转换成适合机器学习模型的格式的艺术。这是机器学习流水线关键的一步,因为正确的特征可以减轻建模的难度,并因此使流水线能输出更高质量的结果。从业者们认为构建机器学习流水线的绝大多数时...转载 2018-12-10 22:00:44 · 131 阅读 · 0 评论 -
GBDT、XGBoost潜在问题攻防解决方案
参考文献1.参考文献12.我爱机器学习——xgboost详解(非常推荐!!!)3.几个模型的对比4.5.问题1:xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的?注意xgboost的并行不是tree粒度的并行,xgboost也是一次迭代完成才能进行下一次迭代的(第t次迭代的代价函数里面包含了前面t-1次迭代的预测值)。xgboost的并行是在特征粒度上的...原创 2019-09-05 16:00:19 · 707 阅读 · 0 评论