自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 机器学习方法简介(3)--kmeans

kmeans是最著名的聚类算法,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。kmeans算法首先需要确定k的数量,即全部样本所包含类别的数量。然后选择k个初始中心点,之后我们计算所有样本点与k个中心点之间的距离,对于任意一个样本点,它与哪个中心点距离最小我们就将其分配到该中心点所在类。完成所有样本点的分配后将重新计算中心点。重复上述过程,比较样本点与中心点的距离并将样本点...

2018-07-31 19:46:17 364

原创 机器学习方法简介(2)--决策树、随机森林、朴素贝叶斯

1.决策树决策树是一种用于对实例进行分类的树形结构。Hunt算法是一种采用局部最优策略的决策树构建算法,它同时也是许多决策树算法的基础,包括ID3、C4.5和CART等。Hunt算法的递归定义如下: (1) 如果 中所有记录都属于同一个类,则 t 是叶结点,用 标记。 (2) 如果 中包含属于多个类的记录,则选择一个属性测试条件(attribute test condition),...

2018-07-31 15:45:03 3530

原创 机器学习方法简介(1)--线性回归、逻辑回归、神经网络、支持向量机

机器学习方法就是计算机根据已有的数据, 得出某个模型,然后利用此模型预测未来的一种方法。机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。1.回归算法回归算法包括线性回归和逻辑回归线性回归使用“最小二乘法”来求解,“最小二乘法”的思想是这样的,假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。为了尽可能减小误差的影...

2018-07-31 12:22:45 4800

转载 机器学习基本工作流程

注:此篇博客为转载,尊重原创。原文链接地址为:http://blog.csdn.net/longxinchen_ml/article/details/50749614作者: 龙心尘 && 寒小阳 时间:2016年2月。 出处:http://blog.csdn.net/longxinchen_ml/article/details/50749614 http://blog.cs...

2018-07-28 19:28:34 375

转载 MapReduce实现基本SQL操作的原理

Join的实现原理select u.name, o.orderid from order o join user u on o.uid = u.uid;在map阶段的输出中给每个value一个tag,用于区分数据来源,在shuffle过程将具有相同key的数据合并在一起,在reduce阶段对key相同的不同来源的数据进行join。Group By的实现原理 select r...

2018-07-27 20:43:06 944 1

转载 数学符号大全

虽然在 Mathtype 能输入绝大多数想要的数学字符,但是有些在 Visio 中无法输入,可以在这里找出,copy就好了,嘻嘻~       1、几何符号   ⊥   ∥   ∠   ⌒   ⊙   ≡   ≌    △  2、代数符号   ∝   ∧   ∨   ~   ∫   ≠    ≤   ≥   ≈   ∞   ∶  3、运算符号   如加号(+),减号(-),乘号(×...

2018-07-25 23:23:38 6040

原创 类加载的生命周期

首先上图接下来,逐个介绍各个过程:1.加载(1)通过一个类的全限定名来获取这个类的二进制字节流。(2)将这个字节流所代表的的静态存储结构转化为运行时数据结构。(3)在内存中(HotSpot虚拟机中是方法区)生成代表这个类的java.lang.Class对象,作为这个类的访问入口。2.验证这一过程的目的是确保二进制字节流包含的信息符合虚拟机的要求,并且不会危害虚拟机的...

2018-07-25 19:34:07 488

转载 KMP算法

KMP算法要解决的问题就是在字符串(也叫主串)中的模式(pattern)定位问题。说简单点就是我们平时常说的关键字搜索。模式串就是关键字(接下来称它为P),如果它在一个主串(接下来称为T)中出现,就返回它的具体位置,否则返回-1(常用手段)。解决上述问题的直观方法是使用暴力匹配方法,即从左到右一个个匹配,如果这个过程中有某个字符不匹配,就跳回去,将模式串向右移动一位。初始化:之后比...

2018-07-24 20:26:08 130

转载 MapReduce之shuffle过程

shuffle的主要职责是将map任务产生的输出,按照partitioner组件制定的规则,分发给reduce任务。主要分为3个过程,map端的spill过程,reduce端的copy和sort过程。1.spill过程map任务不断地以<K,V>对的形式把结果输出到内存的一个数据结构中,这个数据结构叫Kvbuffer,是一个字节数组。Kvbuffer不仅存数据,也保存对...

2018-07-20 17:21:42 172

原创 Spark的ShuffleManager

ShuffleManager的主要职责是shuffle过程的执行、计算和处理。包括HashShuffleManager和SortShuffleManager。1.2版本以前的Spark使用HashShuffleManager,1.2版本以后使用SortShuffleManager。1.未经优化的HashShuffleManager在shuffle write阶段,也就是一个stage结束之...

2018-07-20 14:01:23 491

转载 MapReduce过程

MapReduce由两个阶段组成,map阶段和reduce阶段:map阶段:1.从hdfs上读取文件,将文件的每一行解析成一个<K,V>对。2.对解析后的<K,V>对执行用户实现的map函数。3.对2所得结果进行分区。分区过程将在接下来学习Partitioner4.对不同分区中的数据进行排序和分组。5.(可选)对每个组的数据进行本地合并。该过程接下来...

2018-07-20 11:51:05 295

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除