![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Machine Learning
文章平均质量分 84
张博208
知识搬运工
展开
-
Automatic Differentiation Part 1
自动微分原创 2024-06-01 16:53:18 · 826 阅读 · 0 评论 -
Class-Balanced Loss Based on Effective Number of Samples - 1 - 论文学习
https://arxiv.org/pdf/1901.05555.pdfskewed 倾斜的,歪斜的 heuristic 启发式的 interpolated插值 focal 焦点的 complementary 互补的 coverage 覆盖 tamable 可驯服的 intrinsic 内在的,本质的Abstract随着大规模、真实世界数据集的迅速增加,长尾数据分布问题的解决变得至关重要(即少数类占了大部分数据,而大多数类的代表性不足)。现有的解决方案通常采用类重新平衡策略,例如根据每个类的观察转载 2021-12-17 16:31:24 · 2052 阅读 · 0 评论 -
AutoDis: 连续型特征embedding新方法
An Embedding Learning Framework for Numerical Features in CTR PredictionKDD2021|AutoDis: 连续型特征embedding新方法! - 知乎总结该文章提出了AutoDis。该方法具有以下三种优点:1.高模型容量。2.自动离散化,端到端训练。3.连续特征embedding具有唯一的表示。感兴趣的同学可以动手实践下,该文章已开源[1]。笔者认为,该文章具有很好的借鉴价值,大家可以在自己的任务上或者业务中进行尝试...原创 2021-11-30 11:56:03 · 1407 阅读 · 0 评论 -
2021年,谁才是表格类数据模型的王者?
上次在聊 autoML 框架时顺带提了一下对于表格类数据(也是商业类问题的主要数据形式)表现较好的模型的选择,最近正好在 Twitter 上看到几篇不错的文章,就来稍微展开讨论一下。以我目前的认知,表格类数据的主流模型选择就是树模型(包括 GBDT,随机森林等)和 NN(从 MLP 到各种复杂变种)两类。本文也主要来阐述和对比这两类模型。关于 Kaggle 比赛的分析如果仅考虑模型的精度效果,那么 Kaggle 比赛绝对是最好的检验方式之一。这方面推荐砍手豪大佬的两个系列文章:No free l转载 2021-11-17 11:12:35 · 1522 阅读 · 0 评论 -
代价敏感学习初探 - 有偏损失函数设计
搬砖https://www.cnblogs.com/LittleHann/p/10587512.html转载 2021-06-16 13:18:57 · 2447 阅读 · 0 评论 -
距离度量以及python实现
传统距离:欧氏距离(Euclidean Distance),曼哈顿距离(Manhattan Distance),切比雪夫距离( Chebyshev Distance ),闵可夫斯基距离(Minkowski Distance),标准化欧氏距离(Standardized Euclidean distance ),马氏距离(Mahalanobis Distance),夹角余弦(Cosine),皮尔逊相关系数(Pearson correlation),汉明距离(Hamming distance),杰卡德相似系...原创 2020-09-18 10:14:18 · 453 阅读 · 0 评论 -
金融风控稳定性指标 PSI & CSI
https://zhuanlan.zhihu.com/p/94619990原创 2020-05-18 14:13:41 · 1832 阅读 · 0 评论 -
一篇理解Message passing算法 | 贝叶斯推断
https://blog.csdn.net/qq_41603411/article/details/105209622转载 2020-04-16 11:56:17 · 1398 阅读 · 0 评论 -
谱聚类(Spectral Clustering)原理及Python实现
https://blog.csdn.net/songbinxu/article/details/80838865转载 2020-04-15 10:59:06 · 703 阅读 · 0 评论 -
标签传播算法(Label Propagation)及Python实现
https://blog.csdn.net/zouxy09/article/details/49105265?locationNum=10转载 2020-04-15 10:16:04 · 363 阅读 · 0 评论 -
马尔科夫链与转移矩阵
什么是转移概率矩阵(Transition Probability Matrix) 转移概率矩阵:矩阵各元素都是非负的,并且各行元素之和等于1,各元素用概率表示,在一定条件下是互相转移的,故称为转移概率矩阵。如用于市场决策时,矩阵中的元素是市场或顾客的保留、获得或失去的概率。P(k)表示k步转移概率矩阵。转移概率矩阵的特征 转移概率矩阵有以下特征: ①,0≤Pij≤1 ...转载 2020-04-15 10:12:03 · 1348 阅读 · 0 评论 -
社区发现之标签传播算法
转载自:https://www.jianshu.com/p/0c66b2717972一、半监督学习(Semi-supervised Learning, SSL)机器学习大体可分为三类:监督学习(Supervised Learning, SL)、非监督学习(Unsupervised Learning,USL)及半监督学习 (Semi-supervised Learning, SSL)。监...转载 2020-04-15 09:55:42 · 2145 阅读 · 0 评论 -
多模态的几种融合方法
目前,多模态数据融合主要有三种融合方式:前端融合(early-fusion)或数据水平融合(data-level fusion)、后端融合(late-fusion)或决策水平融合(decision-level fusion)和中间融合(intermediate-fusion)。前端融合将多个独立的数据集融合成一个单一的特征向量,然后输入到机器学习分类器中。由于多模态数据的前端融合往往无法充分利...转载 2020-04-13 10:07:00 · 5496 阅读 · 0 评论 -
最大相关 - 最小冗余(mRMR)特征选择
彭等人提出了一种特征选择方法,可以使用互信息,相关或距离/相似性分数来选择特征。目的是在存在其他所选特征的情况下通过其冗余来惩罚特征的相关性。特征集S与类c的相关性由各个特征fi和类c之间的所有互信息值的平均值定义,如下所示:集合S中所有特征的冗余是特征fi和特征fj之间的所有互信息值的平均值:mRMR标准是上面给出的两种措施的组合,定义如下:如果使用增量搜索方...转载 2020-04-13 09:56:12 · 3878 阅读 · 0 评论 -
什么是多模态机器学习?
首先,什么叫做模态(Modality)呢?每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。因此,多模态机器学习,...转载 2020-04-13 09:52:11 · 1158 阅读 · 0 评论 -
AC自动机算法详解
首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有模式树(字典树)Trie和KMP模式匹配算法的基础知识。KMP算法是单模式串的字符匹配算法,AC自动机是多模式串的字符匹配算法。AC自动...转载 2019-12-03 09:57:40 · 146 阅读 · 0 评论 -
XGboost数据比赛实战之调参篇(完整流程)
这一篇博客的内容是在上一篇博客Scikit中的特征选择,XGboost进行回归预测,模型优化的实战的基础上进行调参优化的,所以在阅读本篇博客之前,请先移步看一下上一篇文章。我前面所做的工作基本都是关于特征选择的,这里我想写的是关于XGBoost参数调整的一些小经验。之前我在网站上也看到很多相关的内容,基本是翻译自一篇英文的博客,更坑的是很多文章步骤讲的不完整,新人看了很容易一头雾水。由于本人也...转载 2019-12-02 16:20:41 · 227 阅读 · 0 评论 -
让算法解放算法工程师——NAS 综述
1. NAS 综述AutoML(automated machine learning)是模型选择、特征抽取和超参数调优的一系列自动化方法,可以实现自动训练有价值的模型。AutoML 适用于许多类型的算法,例如随机森林,gradient boosting machines,神经网络等。 机器学习最耗费人力的是数据清洗和模型调参,而一般在模型设计时超参数的取值无规律可言,而将这部分过程自动化可以使...转载 2019-11-25 09:01:24 · 253 阅读 · 0 评论 -
贝叶斯优化(Bayesian Optimization)深入理解
目前在研究Automated Machine Learning,其中有一个子领域是实现网络超参数自动化搜索,而常见的搜索方法有Grid Search、Random Search以及贝叶斯优化搜索。前两者很好理解,这里不会详细介绍。本文将主要解释什么是体统(沉迷延禧攻略2333),不对应该解释到底什么是贝叶斯优化。1|0I Grid Search & Random Search...转载 2019-11-25 08:59:58 · 2730 阅读 · 0 评论 -
CART分类算法
分类:统计学习方法(7) 目录(?)[-]GINI指数终止条件剪枝统计学习方法是一本好书,可惜例子太少。找到一个好的CART算法的例子谢谢原文作者了http://www.cnblogs.com/zhangchaoyang 作者:Orisun分类回归树(CART,Classification And Regression转载 2017-03-27 18:33:10 · 841 阅读 · 0 评论 -
决策树算法之悲观剪枝算法(PEP)
前言 在机器学习经典算法中,决策树算法的重要性想必大家都是知道的。不管是ID3算法还是比如C4.5算法等等,都面临一个问题,就是通过直接生成的完全决策树对于训练样本来说是“过度拟合”的,说白了是太精确了。由于完全决策树对训练样本的特征描述得“过于精确” ,无法实现对新样本的合理分析, 所以此时它不是一棵分析新数据的最佳决策树。解决这个问题的方法就是对决策树进行剪枝,剪去影响预测精度的分支转载 2017-03-27 18:36:19 · 5713 阅读 · 2 评论 -
利用Python,四步掌握机器学习
英文出处:lorenzibex。欢迎加入翻译组。为了理解和应用机器学习技术,你需要学习 Python 或者 R。这两者都是与 C、Java、PHP 相类似的编程语言。但是,因为 Python 与 R 都比较年轻,而且更加“远离”CPU,所以它们显得简单一些。相对于R 只用于处理数据,使用例如机器学习、统计算法和漂亮的绘图分析数据, Pthon 的优势在于它适用于许多其他的问题。因为 Pyt转载 2017-04-08 15:55:13 · 338 阅读 · 0 评论 -
梯度下降法
一、基本概念梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。 最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a称为学习速率,可以是较小的常数。g(k)是x(k)的梯度。二、导数(1)定义 设有定义域和取值都在实数域中的函数 。若 在点转载 2017-02-20 10:20:28 · 371 阅读 · 0 评论 -
ARIMA模型
原文地址:http://www.jianshu.com/p/f547bb4b50c3本文结构:时间序列分析?什么是ARIMA?ARIMA数学模型?input,output 是什么?怎么用?-代码实例常见问题?时间序列分析?时间序列,就是按时间顺序排列的,随时间变化的数据序列。生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量,股价,油转载 2017-02-07 16:33:45 · 11972 阅读 · 1 评论 -
决策树算法——ID3算法,C4.5算法
目录(?)[-]决策树算法1摘要2决策树引导3决策树的构造31ID3算法32C45算法4关于决策树的几点补充说明41如果属性用完了怎么办42关于剪枝决策树算法1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率转载 2017-03-26 20:29:23 · 910 阅读 · 0 评论 -
分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知转载 2017-03-26 20:33:30 · 319 阅读 · 0 评论 -
协方差矩阵的几何解释
A geometric interpretation of the covariance matrixhttp://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/译文:http://demo.netfoucs.com/u010182633/article/details/45937051转载 2017-03-26 20:36:30 · 547 阅读 · 0 评论 -
机器学习路线图(附资料)
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]出处:http://blog.csdn.net/han_xiaoyang/article/details/50759472 http://blog.csdn.net/longxinchen_ml/article/details/50749614 1. 引言也许转载 2017-04-15 17:45:26 · 615 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is转载 2017-04-15 23:02:16 · 497 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战
1、MLlib实例1.1 聚类实例1.1.1 算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常见的还有层次法(CURE、CHAMELEON转载 2017-04-15 23:05:52 · 660 阅读 · 0 评论 -
K NEAREST NEIGHBOR 算法
http://coolshell.cn/articles/8052.htmlK Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类转载 2017-05-02 18:51:55 · 339 阅读 · 0 评论 -
机器学习中距离和相似性度量分类体系
目录(?)[-]距离和相似性度量机器学习中的相似性度量马氏距离的几张截图漫谈机器学习中距离和相似性度量方法距离度量分类体系本篇文章并不打算描述所有这些类别,要具体阐述它们的细节和意义实在有点困难。这个大纲的目的,第一:提供一个貌似详细的距离度量的分类体系,列出相关的关键字。 第二:就像一个词典一样供转载 2017-05-03 10:12:32 · 7162 阅读 · 0 评论 -
矩阵论基础知识1(LU分解 条件数 最小二乘问题)
1. LU Decomposition假设现在要解一个线性系统:Ax = b,其中 A 是 n×n 非奇异方阵,对于任意的向量 b 来说,都存在一个唯一的解。回顾我们手工求解这个线性方程组的做法,首先将矩阵 A 行之间进行加减,将 A 矩阵转化为一个上三角矩阵,然后从下往上将未知数一个一个求解出来, 这就是高斯消元法。实际上,矩阵等价于左乘一个单位矩阵,(因转载 2017-05-03 10:37:14 · 3398 阅读 · 0 评论 -
最值得看的十大机器学习公开课
在当下的机器学习热潮,人才匮乏十分显著。截至目前,国内开设人工智能(AI)专业的高校不多,相当多的开发者是跨界入门,需要自学大量知识并摸索。因而优质的学习资源至关重要。因此,雷锋网搜集了全世界范围内最受欢迎的机器学习课程,整理成这份“机器学习十大入门公开课”盘点,集中呈现给各位。这份推荐榜颇费心血,综合考虑了难易、侧重点、时效性等诸多因素,希望能帮助大家找到最适合自己的学习资源。这些课程全转载 2017-05-11 13:49:03 · 1670 阅读 · 0 评论 -
不平衡数据下的机器学习方法简介
机器学习已经成为了当前互联网领域不可或缺的技术之一,前辈们对机器学习模型的研究已经给我们留下了一笔非常宝贵的财富,然而在工业界的应用中我们可以看到,应用场景千千万万,数据千千万万但是我们的模型却依然是那些,在机器学习的应用中对数据的处理与分析往往扮演着比模型更加重要的角色,本文针对机器学习应用数据处理的一个方面即“不平衡数据”下的机器学习方法进行了简单介绍,我的博客。引言不转载 2017-05-03 17:41:04 · 784 阅读 · 0 评论 -
决策树与随机森林
首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征x与logit之间是线性的,除非对x转载 2017-05-12 09:28:51 · 1418 阅读 · 0 评论 -
集成学习方法
很好的参考:https://ocw.mit.edu/courses/health-sciences-and-technology/hst-951j-medical-decision-support-fall-2005/lecture-notes/hst951_6.pdf 集成学习是机器学习算法中非常强大的工具,有人把它称为机器学习中的“屠龙刀转载 2017-05-23 11:08:40 · 518 阅读 · 0 评论 -
机器学习经典算法详解及Python实现--元算法、AdaBoost
版权声明:本文为博主原创文章,未经博主允许不得转载--“http://blog.csdn.net/suipingsp”。目录(?)[+]第一节,元算法略述遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果。如同专家团临床会诊一样,重大决定汇总多个人的意见往往胜过一个人的决定。机器学习中也吸取了‘三个臭皮匠顶个诸葛亮’(实质上是由三个裨将顶转载 2017-05-23 11:11:09 · 595 阅读 · 0 评论 -
总结:Bootstrap(自助法),Bagging,Boosting(提升)
前言最近在理清一些很必要的也很基础的东西,记录一下,结合网上和文献,自己也有些易化使之更轻松理解,如有错误,请不吝赐教,多谢!Bootstrap(自助法)Bootstrap是一种抽样方法核心思想这里写图片描述子样本之于样本,可以类比样本之于总体栗子:我要统计鱼塘里面的鱼的条数,怎么统计呢?假设鱼塘总共有鱼100转载 2017-05-23 11:41:12 · 1176 阅读 · 0 评论 -
Active Learning
阅读目录1. 写在前面2. 什么是active learning?3. active learning的基本思想4. active learning与半监督学习的不同5. 参考文献回到顶部1. 写在前面 在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervise转载 2017-05-23 11:53:38 · 705 阅读 · 0 评论