机器学习
文章平均质量分 88
Machine Learning 基础及高阶知识汇总
Harrytsz
这个作者很懒,什么都没留下…
展开
-
XGBoost 参数说明
文章目录General ParametersBooster ParametersTask Parameters首先 XGBoost 有两种接口,XGBoost 库自带的 API 和 Scikit-Learn 提供的 API,具体用法存在细微差别。在运行 XGBoost 之前, 我们必须设置三种类型的参数: (常规参数)general parameters,(提升器参数)booster parameters和(任务参数)task parameters。常规参数与我们用于提升的提升器有关,通常是树模型或原创 2022-05-28 19:38:35 · 1219 阅读 · 0 评论 -
Pandas 合并
一、 按照行合并1. append用法和列表一样,不用在意参数里是不是有空列表(用列表代替一个参数),其他几个好像都不可这样a = []b = np.arange(5)print(a)print(b)d = np.append(a,b)print(d)---------输出----[][0 1 2 3 4][0. 1. 2. 3. 4.]2. c_np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等#例一a = np.arange(5)b = np.arang原创 2022-04-28 15:12:21 · 1883 阅读 · 0 评论 -
XGBoost 浅析
目标函数加法模型基学习器回归树表达式前向分步算法目标函数推导构建树的方法系统设计回归树XGBoost 属于加法模型,其中每个基学习器都采用回归树,采用前向分布算法逐步优化其中的每一个基学习器。按照优化模型的一般步骤,定义好模型之后就需要把目标函数写出来,然后把问题转化成一个求解最优值的问题。比如将损失函数降到最小。然后利用各种求解最优质的方法求解出基学习器中的参数。模型表达(加法模型)yiM^=∑j=1Mfj(xi)=∑j=1M−1fj(xi)+fj(M)(.原创 2022-04-13 11:36:49 · 1058 阅读 · 0 评论 -
蒙特卡罗方法与马尔科夫链
一. 蒙特卡罗方法蒙特卡罗是什么?赌城!蒙特卡洛是摩纳哥公国的一座城市,位于欧洲地中海之滨、法国的东南方,属于一个版图很小的国家摩纳哥公国,世人称之为“赌博之国”、“袖珍之国”、“邮票小国”。蒙特卡洛的赌业,海洋博物馆的奇观,格蕾丝王妃的下嫁,都为这个小国增添了许多传奇色彩,作为世界上人口最密集的一个国度,摩纳哥在仅有1.95平方千米的国土上聚集了3.3万的人口,可谓地窄人稠。但相对于法国,摩纳哥的地域实在是微乎其微,这个国中之国就像一小滴不慎滴在法国版图内的墨汁,小得不大会引起人去注意它的存在。蒙特原创 2022-02-23 20:12:14 · 1623 阅读 · 0 评论 -
Gibbs采样(四)
在 MCMCMCMCMCMC采样和M−HM-HM−H采样中,我们讲到了 M−HM-HM−H 采样已经可以很好的解决蒙特卡罗方法需要的任意概率分布的样本集的问题。但是 M−HM-HM−H 采样有两个缺点:一是需要计算接受率,在高维时计算量大。并且由于接受率的原因导致算法收敛时间变长。二是有些高维数据,特征的条件概率分布好求,但是特征的联合分布不好求。因此需要一个好的方法来改进 M−HM-HM−H 采样,这就是我们下面讲到的 GibbsGibbsGibbs 采样。1. 重新寻找合适的细致平稳条件在原创 2022-02-22 19:12:31 · 569 阅读 · 0 评论 -
MCMC采样和M-H采样 (三)
在马尔科夫链中我们讲到给定一个概率平稳分布 π\piπ, 很难直接找到对应的马尔科夫链状态转移矩阵 PPP。而只要解决这个问题,我们就可以找到一种通用的概率分布采样方法,进而用于蒙特卡罗模拟。本篇我们就讨论解决这个问题的办法:MCMCMCMCMCMC 采样和它的易用版 M−HM-HM−H 采样。1. 马尔科夫链的细致平稳条件在解决从平稳分布 π\piπ, 找到对应的马尔科夫链状态转移矩阵 PPP 之前,我们还需要先看看马尔科夫链的细致平稳条件。定义如下:如果非周期马尔科夫链的状态转移矩阵 PPP 和概原创 2022-02-22 18:10:38 · 503 阅读 · 0 评论 -
马尔科夫链(二)
在蒙特卡罗 MCMCMCMCMCMC (一)方法中,我们讲到了如何用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和的方法,但是这个方法需要得到对应的概率分布的样本集,而想得到这样的样本集很困难。因此我们需要本篇讲到的马尔科夫链来帮忙。1. 马尔科夫链概述马尔科夫链定义本身比较简单,它假设某一时刻状态转移的概率只依赖于它的前一个状态。举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气,而和前天的天气没有任何关系。当然这么说可能有些武断,但是这样做可以大大简化模型的原创 2022-02-22 16:02:57 · 148 阅读 · 0 评论 -
MCMC 蒙特卡罗方法 (一)
作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础。比如我们前面讲到的分解机(Factorization Machines)推荐算法,还有前面讲到的受限玻尔兹曼机(RBM)原理总结,都用到了MCMC来做一些复杂运算的近似求解。下面我们就对MCMC的原理做一个总结。1. MCMC 概述从名字我们可以看出,MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo原创 2022-02-22 15:00:17 · 371 阅读 · 0 评论 -
机器学习算法总结—— 线性回归(Linear Regression)
前言本系列为机器学习算法的总结和归纳,目的为了清晰阐述算法原理,同时附带上手代码实例,便于理解。目录k近邻(KNN)决策树线性回归逻辑斯蒂回归朴素贝叶斯支持向量机(SVM)组合算法(Ensemble Method)K-Means本章为线性回归,内容包括模型介绍及代码实现(包括自主实现和sklearn案例)。一、算法简介1.1 什么是回归分析回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的原创 2021-10-22 15:34:57 · 5895 阅读 · 0 评论 -
PySpark特征工程入门总结
PySpark Feature Tool1. 数据准备我们定义了一些测试数据,方便验证函数的有效性;同时对于大多数初学者来说,明白函数的输入是什么,输出是什么,才能更好的理解特征函数和使用特征:df = spark.createDataFrame([ ('zhu', "Hi I heard about pySpark"), ('xiang', "I wish python could use case classes"), ('yu', "Logistic regression原创 2021-09-07 08:09:43 · 497 阅读 · 0 评论 -
机器学习学习笔记—正则化的理解
这几天在学习李航的统计学习方法,来谈谈我对于机器学习中正则化的理解: 什么是正则化 如何理解正则化 正则化的作用 第一个问题,什么是正则化?正则化就是在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风险最小化策略,即经验风险(损失函数)加上正则化。一般模型越复杂,正则化值越大。正则化项是用来对模型中某些参数进行约束正则化的一般形式:其中,第一项是损失函数(经验风险),...转载 2020-08-10 09:22:58 · 1194 阅读 · 0 评论 -
使用pandas把某一列的字符值转换为数字
使用map的方法就可以实现把某一列的字符类型的值转换为数字。class_mapping = {'A':0, 'B':1}data[class] = data[class].map(class_mapping)首先定义一个字典,然后使用map方法就可以把某一列的字符类型的值转换为数字。以上就是对使用pandas把某一列的字符值转换为数字的认识。...原创 2020-06-07 17:40:25 · 7047 阅读 · 0 评论 -
XGBOOST从原理到实战:二分类 、多分类
注:转载请注明出处,https://blog.csdn.net/HHTNAN/文章目录XGboost完整系统的原理+实战:[课程直通车](https://edu.csdn.net/course/detail/10332)1.XGBoost2. XGBoost的优点2.1 正则化2.2 并行处理2.3 灵活性2.4 缺失值处理2.5 剪枝2.6 内置交叉验证3. XGBoost详解3.1 数据格式3.2 参数设置3.3xgboost 模型训练方法和参数4.模型的训练、预测、保存4.1 训练模型4.3 保存与转载 2020-06-07 17:36:40 · 4589 阅读 · 0 评论 -
DBSCAN聚类算法——机器学习(理论+图解+python代码)
文章目录一、前言去年学聚类算法的R语言的时候,有层次聚类、系统聚类、K-means聚类、K中心聚类,最后呢,被DBSCAN聚类算法迷上了,为什么呢,首先它可以发现任何形状的簇,其次我认为它的理论也是比较简单易懂的。今年在python这门语言上我打算好好弄弄DBSCAN。下面贴上它的官方解释:DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密转载 2020-06-03 08:14:55 · 363 阅读 · 0 评论 -
推荐系统面试题之机器学习(一) ----- 树模型
推荐系统面试题之机器学习(一) ----- 树模型简单介绍一下XGBXGBoost为什么使用泰勒二阶展开?为什么用二阶信息不用一阶?XGBoost在什么地方做的剪枝,怎么做的?XGBoost如何分布式?特征分布式和数据分布式? 各有什么存在的问题?XGBoost里处理缺失值的方法?XGBoost有那些优化?xgboost对预测模型特征重要性排序的原理?XGBoost如何寻找最优...转载 2020-05-07 16:33:24 · 769 阅读 · 0 评论 -
机器学习推导 —— 频率派 VS 贝叶斯派
原创 2020-03-08 22:32:16 · 303 阅读 · 0 评论 -
机器学习推导 —— 绪论
原创 2020-03-06 22:35:35 · 198 阅读 · 0 评论 -
各大公司广泛使用的在线学习算法FTRL详解
转载请注明本文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTR...转载 2020-03-06 16:14:52 · 431 阅读 · 0 评论 -
基于深度学习的推荐系统
在微信公众号“机器之心”中无意中看到的论文:Deep Learing based Recommender System:A Survey and New PerspectivesACMJ.Comput.Cult.Herit.,Vol.1,No.1,Article35.Publication date:July 2017.1、引言推荐系统:用来预测使用者对于他们还没有见到或了解的事物的喜好。由...转载 2019-10-17 21:39:54 · 1856 阅读 · 0 评论 -
卷积神经网络在ImageNet项目中的演进过程
1、ImageNet数据集背景介绍: 如果说Mnist数据集将初学者领进了深度学习领域,那么Imagenet数据集在深度学习中尤其是计算机视觉领域掀起了巨大的浪潮。ImageNet项目于2007年由斯坦福大学华人教授李飞飞创办,目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片,总共拥有22000类,其中约有100万张标注了图片中主要物体的...转载 2019-05-21 08:57:54 · 381 阅读 · 0 评论 -
史上最详细的XGBoost实战
0. 环境介绍Python 版 本: 3.6.2操作系统 : Windows集成开发环境: PyCharm1. 安装Python环境安装Python首先,我们需要安装Python环境。本人选择的是64位版本的Python 3.6.2。去Python官网https://www.python.org/选择相应的版本并下载。如下如所示: 接下来安装,并最终选择将Python加入...转载 2019-05-15 16:47:35 · 829 阅读 · 0 评论 -
Spark(一):基于物品的协同过滤推荐算法原理介绍及Python代码解读
基于物品的协同过滤算法的原理: 基于物品的协同过滤算法给用户推荐那些和他们之前喜欢的物品相似的物品。不过ItemCF算法并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算用户之间的相似度,也就是说物品A和物品B具有很大的相似度是因为喜欢物品A的用户大都也喜欢物品B(这一点也是基于物品的...转载 2019-05-07 21:52:22 · 561 阅读 · 0 评论 -
上海交大张志华教授《机器学习导论》和《统计机器学习》公开课视频的正确播放顺序
张志华教授的两门机器学习公开课是很好的机器学习资源。但在上海交大的公开课视频网站上挂出的教学视频顺序有点乱。对于初学者来说,如果没看对顺序的话,会觉得讲得很乱,从而错过这么优质的资源。事实上板书很完整,有电子版讲义可下载。只是讲义上有个别地方有点笔误,但不影响理解。能用黑板直接推导的老师的逻辑和思路都是很清晰的!正确的顺序应如下所示:《机器学习导论》:http://ocw.sjtu.edu...转载 2018-11-29 17:09:38 · 2081 阅读 · 6 评论 -
SVM -- Hard Margin SVM
SVM科目: 白板推导机器学习Support Vector Machine 在深度学习流行之前,支持向量机是非常流行的算法。 本讲主要从理论推导方面介绍,怎么从一步一步的演化到最后的优化问题。 从核心概念上来看,有一句关于支持向量机的口头禅: – SVM 有三宝,间隔、对偶、核技巧.注意: 其中的“核技巧”和 SVM 之间并没有固定的联系。实际上,在 SVM 出现之前就已...原创 2019-07-20 13:50:02 · 631 阅读 · 0 评论 -
Kaggle 机器学习竞赛冠军及优胜者的源代码汇总
http://dataunion.org/14892.htmlKaggle比赛源代码和讨论的收集整理。Algorithmic Trading Challenge40Solution whitepaper41.Solution thread30.Allstate Purchase Prediction Challenge7Rank 2 solution code33 ...转载 2019-07-31 15:36:41 · 444 阅读 · 0 评论 -
机器学习资源-Harvard Ph.D Sam维护
这篇博文转自哈佛大学博士生Sam整理的机器学习资料,包括了数据基础、几何、概率论、统计学习、深度学习等。内容非常丰富,Blog是完全拷贝用于备份。最新内容建议阅读Sam维护的博文:https://sgfin.github.io/learning-resources/ML...转载 2019-10-04 08:30:16 · 326 阅读 · 0 评论 -
奇异值分解(SVD)详解及其应用
1.前言第一次接触奇异值分解还是在本科期间,那个时候要用到点对点的刚体配准,这是查文献刚好找到了四元数理论用于配准方法(点对点配准可以利用四元数方法,如果点数不一致更建议应用ICP算法)。一直想找个时间把奇异值分解理清楚、弄明白,直到今天才系统地来进行总结。上一次学习过关于PCA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。特征值和奇异值在大部分...转载 2019-10-04 08:40:10 · 1138 阅读 · 1 评论 -
深度学习秋招面试题集锦(一)
这部分的面试题包含C++基础知识、python基础、概率相关、智力题相关、算法相关以及深度学习相关。后续还会不断补充,欢迎大家查阅!C++后台开发面试常见问题汇总Q1 : C++虚函数表剖析。A1 : CSDNQ2 : C++中虚析构函数的作用及其原理分析。A2 : CSDNQ3 : 结构体(struct)和联合体(union)的区别。A3 : CSDNQ4 : Define 和...转载 2019-10-04 10:38:31 · 478 阅读 · 0 评论 -
python开发大全、系列文章、精品教程
分享一个朋友的人工智能教程。零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助http://www.captainbed.net/luanpeng教程更新到自家网站上:http://www.data-master.net/python基础教程python基础系列教程——Python的安装与测试:python解释器、PyDev编辑器、pycharm编译器python基础...转载 2019-04-19 08:19:41 · 502 阅读 · 0 评论 -
python机器学习库sklearn——支持向量机svm
python数据挖掘系列教程支持向量机svm的相关的知识内容可以参考 https://blog.csdn.net/luanpeng825485697/article/details/78823919支持向量机的优势在于:在高维空间中非常高效.即使在数据维度比样本数量大的情况下仍然有效.在决策函数(称为支持向量)中使用训练集的子集,因此它也是高效利用内存的.通用性: 不同的核...转载 2019-04-19 08:16:34 · 1897 阅读 · 0 评论 -
Scikit-Learn (Sklearn) 中文文档 0.19
Scikit-Learn (Sklearn) 中文文档 0.19scikit-learn 是基于 Python 语言的机器学习工具。简单高效的数据挖掘和数据分析工具可供大家在各种环境中重复使用建立在 NumPy ,SciPy 和 matplotlib 上开源,可商业使用 - BSD许可证官网地址: scikit-learn(sklearn): http...转载 2018-12-08 11:13:27 · 895 阅读 · 2 评论 -
通俗理解kaggle比赛大杀器xgboost
通俗理解kaggle比赛大杀器xgboost 转载 2018-12-07 21:02:50 · 279 阅读 · 0 评论 -
程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结(七月在线:https://www.julyedu.com/,面试 & 算法 &am...转载 2018-12-04 21:34:42 · 204 阅读 · 0 评论 -
CNN笔记:通俗理解卷积神经网络
通俗理解卷积神经网络(cs231n与5月dl班课程笔记) 1 前言 2012年我在北京组织过8期machin...转载 2018-12-04 21:33:43 · 216 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年...转载 2018-12-04 21:31:50 · 699 阅读 · 0 评论 -
通俗理解kaggle比赛大杀器xgboost
通俗理解kaggle比赛大杀器xgboost 0 前言xgboost一直在竞赛江湖里被传为神器,比如时不转载 2018-12-04 21:27:37 · 346 阅读 · 0 评论 -
第 2 章 决 策 树
∗∗第2章决策树∗∗ **第 2 章 决策树**∗∗第2章决策树∗∗2.1 概述决策树(DecisionTreeDecision TreeDecisionTree)是功能强大而且相当受欢迎的分类和预测方法,它是一种有监督的学习算法,以树状图为基础,其输出结果为一系列简单实用的规则,故得名决策树。决策树就是一系列的 if−thenif-thenif−then 语句,决策树可以用于分类问题,也可以...原创 2018-11-23 14:45:40 · 413 阅读 · 0 评论 -
麦子学院深度学习基础 —— 机器学习 —— 最邻近规则分类(K-Nearest Neighbor)KNN 算法应用
麦子学院深度学习基础 —— 机器学习 —— 最邻近规则分类(K-Nearest Neighbor)KNN 算法应用标签 : 深度学习基础4.2 最邻近规则分类 KNN 算法应用1.数据集介绍鸢尾花数据集:150 个实例萼片长度(sepal length)、萼片宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width)。类别:Iris ...原创 2018-11-24 21:23:40 · 395 阅读 · 0 评论 -
麦子学院深度学习基础 —— 机器学习 —— 最近邻规则分类 KNN 算法
麦子学院深度学习基础 —— 机器学习 —— 最近邻规则分类 KNN 算法标签(空格分隔): 深度学习基础最邻近规则分类(K-Nearest Neighbor)KNN 算法1.综述:1.1 Cover 和 Hart 在 1968 年提出了最初的近邻算法。1.2 分类(Classification)算法。1.3 输入基于实例的学习(instance-based learning)、懒惰学...原创 2018-11-24 16:55:29 · 510 阅读 · 0 评论 -
达观杯比赛复盘专题
达观杯比赛简介特征工程1.构建特征countvectororizerTfidfVectorizerDoc2VecHashingVectorizerlength降维lsa 和 ldaSelectFromModel2.组合特征tfidf(word+article)tfidf(word+article)+lsatfidf(word+article+length)lin...转载 2018-11-14 11:04:58 · 149 阅读 · 0 评论