自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Druid源码分析之send metrics

基本介绍: 什么是Metric? metric就是Druid运行过程中产生的一些指标,如查询时间、查询成功数量、JVM参数、任务成功数等。 Metric有什么用? 对Druid进行异常监控报警,对指标数据进行分析等。 Metric发送到哪? 发送位置可以配置,包括日志、http等。 ...

2019-12-15 15:27:16

阅读数 6

评论数 0

原创 git常用命令

git命令: git init 初始化一个仓库,会增加一个.git的目录 git add <file> 增加文件到暂存区 git commit -m <message> 提交 git status 查看文件是否被修改过 git diff 查看问价的不同 git ...

2019-09-01 20:17:40

阅读数 10

评论数 0

原创 tmux

基本介绍 tmux是什么? •terminal multiplexer •Linux上的终端复用神器 •可从一个屏幕上管理多个终端 •能保存 session,而且还能多端实时直播 session 基本概念: 一个会话包含多个窗口 一个窗口就是一个终端,可以包含多个窗格 基本操...

2019-09-01 19:40:37

阅读数 20

评论数 0

转载 单例模式(java代码实现)

应用单例模式时,类只能有一个对象实例,这么做的目的是避免不一致状态。 饿汉式单例:(立即加载) // 饿汉式单例 public class Singleton1 { // 指向自己实例的私有静态引用,主动创建 private static Singleton1 single...

2018-08-22 16:28:07

阅读数 13035

评论数 0

转载 红黑树

1.红黑树的特征 (1)每个节点或者是黑色,或者是红色。(2)根节点是黑色。(3)每个叶子节点(NIL)是黑色。 [注意:这里叶子节点,是指为空(NIL或NULL)的叶子节点!](4)如果一个节点是红色的,则它的子节点必须是黑色的。(5)从一个节点到该节点的子孙节点的所有路径上包含相同数目的黑节...

2018-08-15 00:30:41

阅读数 814

评论数 0

原创 Hive严格模式

Hive提供了一个严格模式,用如下方式设置: hive&gt; set hive.mapred.mode=strict; 这种模式是为了防止一些可能产生意想不到的不好的结果的查询执行,在这种模式下,以下三种查询被禁止: 1.带有分区的表的查询 如果对一个有分区的Hive表进行查询...

2018-08-14 12:28:50

阅读数 420

评论数 0

翻译 Spark MLlib学习(1)-- Pipelines

基本概念 DataFrame 机器学习API使用来自Spark SQL的DataFrame作为数据集,它能包括多种数据类型,如文本、特征向量、标签、预测值等。 Transformers 一个Transformers是一个能转化一个DataFrame到另一个DataFrame的算法,例如,一...

2018-08-07 10:17:23

阅读数 69

评论数 0

原创 sql使用技巧--排名函数、日期类型处理、LAG、LEAD

1.排名函数 ROW_NUMBER 他会为查询出来的每一行记录生成一个序号,依次排序且不会重复。示例代码如下: select ROW_NUMBER() OVER(order by [price] desc) as row_num,* from [Order] 原始数据为 id p...

2018-08-06 12:06:50

阅读数 468

评论数 0

翻译 Spark MLlib学习(1)--基本统计

Correlation 支持的方法有Pearson相关系数和spearman相关系数。 Pearson相关系数 皮尔逊相关系数用来衡量定距变量的线性关系,取值范围是-1到1,接近0的变量相关性小,接近1或-1的变量相关性大。 spearman相关系数 斯皮尔曼相关性系数,...

2018-08-03 17:09:10

阅读数 260

评论数 0

翻译 Spark SQL使用简介(3)--加载和保存数据

加载和存储数据 val usersDF = spark.read.load("examples/src/main/resources/users.parquet") usersDF.select("name", "favorite_color&...

2018-08-03 11:03:19

阅读数 688

评论数 0

翻译 Spark SQL使用简介(2)--UDF(用户自定义函数)

内建的DataFrame函数提供了正常的聚合函数,如count(), countDistinct(), avg(), max(), min(),我们也可以自己定义聚合函数,无类型的用户定义聚合函数按如下方式定义: import org.apache.spark.sql.{Row, SparkS...

2018-08-02 23:48:31

阅读数 400

评论数 0

翻译 Spark SQL使用简介(1)--基本使用

Spark SQL可以执行SQL查询,也可以从Hive中读数据。 DataFrame = Dataset&lt;Row&gt; 首先创建 SparkSession import org.apache.spark.sql.SparkSession val spark = S...

2018-08-01 21:03:17

阅读数 207

评论数 0

转载 EM算法简介

1.简介  EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法(Expectation Maximization Algorithm)。EM算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题。其...

2018-08-01 18:52:03

阅读数 601

评论数 0

转载 机器学习方法简介(5)--协同过滤推荐算法

协同过滤推荐算法主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(i...

2018-08-01 13:57:43

阅读数 107

评论数 0

转载 机器学习方法简介(4)--主成分分析(PCA)

顾名思义,主成分分析方法是找出原始数据中的主要成分,用原始数据的主要成分代替原始数据达到降维的效果。 那么我们如果寻找主成分呢?我们可以试图在样本空间中找到一个超平面,使得样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开,这个超平面的方向即为主成分。 经过推导可知...

2018-08-01 13:11:19

阅读数 94

评论数 0

转载 机器学习方法简介(3)--kmeans

kmeans是最著名的聚类算法,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。 kmeans算法首先需要确定k的数量,即全部样本所包含类别的数量。然后选择k个初始中心点,之后我们计算所有样本点与k个中心点之间的距离,对于任意一个样本点,它与哪个中心点距离最小我们就将其分配到该...

2018-07-31 19:46:17

阅读数 94

评论数 0

原创 机器学习方法简介(2)--决策树、随机森林、朴素贝叶斯

1.决策树 决策树是一种用于对实例进行分类的树形结构。 Hunt算法是一种采用局部最优策略的决策树构建算法,它同时也是许多决策树算法的基础,包括ID3、C4.5和CART等。 Hunt算法的递归定义如下:  (1) 如果 中所有记录都属于同一个类,则 t 是叶结点,用 标记。  (2) 如果...

2018-07-31 15:45:03

阅读数 1177

评论数 0

原创 机器学习方法简介(1)--线性回归、逻辑回归、神经网络、支持向量机

机器学习方法就是计算机根据已有的数据, 得出某个模型,然后利用此模型预测未来的一种方法。 机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。 1.回归算法 回归算法包括线性回归和逻辑回归 线性回归使用“最小二乘法”来求解,“最小二乘法”的思想...

2018-07-31 12:22:45

阅读数 1602

评论数 0

转载 机器学习基本工作流程

注:此篇博客为转载,尊重原创。原文链接地址为:http://blog.csdn.net/longxinchen_ml/article/details/50749614 作者: 龙心尘 &amp;&amp; 寒小阳  时间:2016年2月。  出处:http://blog.csdn...

2018-07-28 19:28:34

阅读数 126

评论数 0

转载 MapReduce实现基本SQL操作的原理

Join的实现原理 select u.name, o.orderid from order o join user u on o.uid = u.uid; 在map阶段的输出中给每个value一个tag,用于区分数据来源,在shuffle过程将具有相同key的数据合并在一起,在reduce阶...

2018-07-27 20:43:06

阅读数 159

评论数 0

转载 数学符号大全

虽然在 Mathtype 能输入绝大多数想要的数学字符,但是有些在 Visio 中无法输入,可以在这里找出,copy就好了,嘻嘻~        1、几何符号    ⊥   ∥   ∠   ⌒   ⊙   ≡   ≌    △   2、代数符号    ∝   ∧   ∨   ~   ∫   ≠...

2018-07-25 23:23:38

阅读数 3781

评论数 0

原创 类加载的生命周期

首先上图 接下来,逐个介绍各个过程: 1.加载 (1)通过一个类的全限定名来获取这个类的二进制字节流。 (2)将这个字节流所代表的的静态存储结构转化为运行时数据结构。 (3)在内存中(HotSpot虚拟机中是方法区)生成代表这个类的java.lang.Class对象,作为这个类的访问...

2018-07-25 19:34:07

阅读数 253

评论数 0

转载 KMP算法

KMP算法要解决的问题就是在字符串(也叫主串)中的模式(pattern)定位问题。说简单点就是我们平时常说的关键字搜索。模式串就是关键字(接下来称它为P),如果它在一个主串(接下来称为T)中出现,就返回它的具体位置,否则返回-1(常用手段)。 解决上述问题的直观方法是使用暴力匹配方法,即从左到右...

2018-07-24 20:26:08

阅读数 39

评论数 0

转载 MapReduce之shuffle过程

shuffle的主要职责是将map任务产生的输出,按照partitioner组件制定的规则,分发给reduce任务。 主要分为3个过程,map端的spill过程,reduce端的copy和sort过程。 1.spill过程 map任务不断地以&lt;K,V&gt;对的形式把结...

2018-07-20 17:21:42

阅读数 42

评论数 0

原创 Spark的ShuffleManager

ShuffleManager的主要职责是shuffle过程的执行、计算和处理。包括HashShuffleManager和SortShuffleManager。1.2版本以前的Spark使用HashShuffleManager,1.2版本以后使用SortShuffleManager。 1.未经优化...

2018-07-20 14:01:23

阅读数 259

评论数 0

转载 MapReduce过程

MapReduce由两个阶段组成,map阶段和reduce阶段: map阶段: 1.从hdfs上读取文件,将文件的每一行解析成一个&lt;K,V&gt;对。 2.对解析后的&lt;K,V&gt;对执行用户实现的map函数。 3.对2所得结果进行分区。分区过程...

2018-07-20 11:51:05

阅读数 81

评论数 0

提示
确定要删除当前文章?
取消 删除