自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 机器学习-机器学习之集成学习(ensemble learning)

前面我们说了很多算法模型,当然有的时候我们为了让模型能有更好的泛化效果,我们会采用模型融合的方式来进行对模型的融合。先来讲讲基础:什么是集成学习?集成学习就是通过多个个体学习器集合起来通过某种策略来达到一个更好的结果。(例如随机森林)什么是个体学习器(我也喜欢叫他基类学习器)?就是一个个体。比如说随机森林里的一颗树叫个体学习器。集成学习的分类:Voting,Stacking,Bagging。Votingvoting是一个很常见的策略,就是投票少数服从多数。不仅仅是在今天讲的集成学习里面存在着voti

2021-04-27 15:20:43 385

原创 机器学习-机器学习之随机森林(下)

上次我们说到了决策树的ID3算法,现在我们聊一聊剩下的两种算法。后面再给点代码示例。在ID3算法中节点分裂的基准是按照信息增益来确定分裂节点,那么对于ID3算法来讲就会出现每次分裂的时候都会选择数目特征多的节点来进行分裂。然后C4.5算法中,对于节点分裂的时候采用的是信息增益率来确定分裂的节点。信息增益率=信息增益/属性熵具体计算过程就省略了。可以参考这篇文章:这里(https://zhuanlan.zhihu.com/p/89902999)如有侵权立删。我们此次主要讲C4.5解决了ID3哪些不足

2021-04-26 16:11:30 607

原创 机器学习-机器学习之随机森林(上)

​决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。决策树是一种十分常用的分类方法,需要监管学习(有教师的Supervised Learning),监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。然后我们简单的来画一下决策树的过程,(来源于周志华

2021-04-21 16:54:59 148

原创 Kafka 之 Kafka从源码角度解读Kafka send

​这一期我们来到了Kafka我们都知道:Kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。我们今天从Kafka的官方Demo来探一探Kafka的究竟。我们先在本地下载和编译好kafka的源码,然后他的目录层级大概是这样:OK,我们进入到官方给的examples目录里面:然后我们点开Producer类,前面是初始化一些配置信息,后面是一个线程的run方法,在run方

2021-04-19 15:57:54 174 1

原创 机器学习-机器学习之特征工程

​在机器学习中有一个不成文的说法(数据不给力,再厉害的算法也白搭)首先说明这句话是我编的。但是我主要是想表达一下数据在算法中的重要性,所以我们在拿到数据时,我们首先应该观察数据,对数据进行一系列的数据预处理。我们在演示的时候,很多时候用的是sklearn包中的数据(那些是很完美的数据)但是我们在实际生产中不可能拿到这么完美的数据(算了,不这么说)但是我们的实际生产中很大可能不会拿到这么完美的数据,经常拿到的数据是有缺失,有异常,有噪音,或者需要处理的数据。如果我们把数据处理的很好也能提高算法的能力。接下里

2021-04-13 15:42:26 227 1

原创 Spark之Spark submit脚本到底干了什么?

Spark之Spark submit脚本到底干了什么?经常我们在提交Spark任务时,我们很自然的去想到"这个我知道,Spark submit,然后他的参数是--------(吧啦吧啦一大片)"可曾想到 到底Spark submit这个脚本到底经历了一个怎么样的过程呢?话不多说 直接上源码从源码上看是执行了spark_home下的/bin/spark-class这个脚本,我们进入spark-class这个脚本。第一步找到java的环境变量路径:第二步 找jar包然后一直往下走,走到Mai

2021-04-01 13:29:17 252

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除