Spark2.0机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)

在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:             (1)K-means             (2)Latent Dirichlet allocation (LDA)             (3)Bisecting k-means(二分...

2018-05-30 17:47:17

阅读数 219

评论数 0

scala中为什么不建议用return

scala中为什么不建议用return在scala中使用return的话,编译的时候会提示the latest statement is method is automatically returned, use of th return keyword is redundant.这个警告是说最后...

2018-05-17 14:21:31

阅读数 97

评论数 0

awk命令

awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能...

2018-05-17 10:22:41

阅读数 77

评论数 0

HIVE External&TBLPROPERTIES(二)

HIVE External&TBLPROPERTIES(二)1.Externalhive中有两种表:外部表和内部表(managed and external)。可以通过desc formatted table_name 命令来查看表的信息,来辨别表是外部表还是内部表。 内部...

2018-05-16 13:37:46

阅读数 117

评论数 0

Linux中变量 #, @, 0, 1, 2, *,$$,$?的含义

12345678$# 是传给脚本的参数个数$0 是脚本本身的名字$1 是传递给该shell脚本的第一个参数$2 是传递给该shell脚本的第二个参数$@ 是传给脚本的所有参数的列表$* 是以一个单字符串显示所有向脚本传递的参数,与位置变量不同,参数可超过9个$$ 是脚本运行的当前进程ID号$? 是...

2018-05-15 21:39:30

阅读数 108

评论数 0

linux shell 管道命令(pipe)使用及与shell重定向区别

看了前面一节:linux shell数据重定向(输入重定向与输出重定向)详细分析 估计还有一些朋友是头晕晕的,好复杂的重定向了。这次我们看下管道命令了。shell管道,可以说用法就简单多了。 管道命令操作符是:”|”,它仅能处理经由前面一个指令传出的正确输出信息,也就是 standard outp...

2018-05-14 16:54:46

阅读数 112

评论数 0

linux shell数据重定向(输入重定向与输出重定向)详细分析

在了解重定向之前,我们先来看看linux 的文件描述符。linux文件描述符:可以理解为linux跟踪打开文件,而分配的一个数字,这个数字有点类似c语言操作文件时候的句柄,通过句柄就可以实现文件的读写操作。 用户可以自定义文件描述符范围是:3-num,这个最大数字,跟用户的:ulimit –n 定...

2018-05-14 16:51:00

阅读数 54

评论数 0

linux中sed的用法

sed命令行格式为:         sed [-nefri]  ‘command’  输入文本/文件        常用选项:        -n∶取消默认的输出,使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般都会被列出到屏幕上。但如果加上 -n 参数后,...

2018-05-14 16:36:09

阅读数 1684

评论数 0

linux每天一小步---tail命令详解

1 命令功能   tail命令用于显示文件中末尾的内容(默认显示最后10行内容)2 命令语法    tail 【选项参数】 【文件名1】 【文件名2】3 命令参数    -f  用于循环读取文件的内容,监视文件的增长    -F 与-f类似,区别在于当将监视的文件删除重建后-F仍能监视该文件内容-...

2018-05-14 15:32:04

阅读数 69

评论数 0

脚本调试_sh -x 、set -x

sh -x 脚本名.sh 对整个脚本进行跟踪[root@master shellexer]# cat bash.sh #!/bin/bashvar=$1echo $var[root@master shellexer]# sh -x bash.sh hello+ var=hello+ echo he...

2018-05-14 13:59:31

阅读数 73

评论数 0

Hive 脚本执行

hive执行脚本hive -e “sql语句” 会将查询的结果打印在控制台上。 hive -e “sql语句” >> xxx 会将查询的结果重定向到xxx文件中,会显示OK和抓取的数据条数 hive -S -e “sql语句” >&...

2018-05-14 13:51:15

阅读数 790

评论数 0

Unix/Linux脚本中"set -e"的作用

编写shell脚本没多久,对于其许多命令的具体用法还不太熟悉。最近刚好有需求,就尝试用脚本去实现。其中就有用到set -e选项。        在用这个命令之前,也查过其功能,描述比较简单:就是当命令以非零状态退出时,则退出shell。主要作用是,当脚本执行出现意料之外的情况时,立即退出,避免错误...

2018-05-14 13:43:32

阅读数 125

评论数 0

机器学习-异常检测算法(三):Principal Component Analysis

Principal Component Analysis(PCA)是最常见的数据降维的方法。根据 Wikipedia 的介绍,它最早是由 Karl Pearson(同时也是卡方检验的发明者) 在1901年提出,到现在已经一百多年了。作为一种降维的方法,PCA可以将原数据进行线性变换,并找出数据中信...

2018-05-13 18:05:08

阅读数 2200

评论数 1

异常检测(三)——Local Outlier Factor(LOF)

在中等高维数据集上执行异常值检测的另一种有效方法是使用局部异常因子(Local Outlier Factor ,LOF)算法。1、算法思想LOF通过计算一个数值score来反映一个样本的异常程度。这个数值的大致意思是:一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。比值越大于1...

2018-05-13 18:03:22

阅读数 1464

评论数 0

机器学习-异常检测算法(二):Local Outlier Factor

Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et. al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,D...

2018-05-13 18:00:24

阅读数 1052

评论数 0

异常点检测算法isolation forest的分布式实现

无监督领域有一个准度和效率双佳的异常点检测算法,我在实践中使用过几次,效果奇好,就是最近几年非常流行的isolation forest(孤立森林)。该算法在sklearn中有现成的包,但是如果大数据的集群上跑的话,目前没有封装好的接口,给分布式任务的部署带来了很多不便(话说spark mllib中...

2018-05-13 17:51:57

阅读数 598

评论数 0

Isolation Forest算法原理详解

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://g...

2018-05-13 17:38:49

阅读数 172

评论数 0

机器学习-异常检测算法(一):Isolation Forest

"An outlier is an observation which deviates so much from other observations as to arouse suspicions that it was generated by a different me...

2018-05-13 17:30:29

阅读数 3819

评论数 0

Hive UDTF 多粒度计算优化

2018-05-04 15:38:23

阅读数 83

评论数 0

Hive优化

要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多...

2018-05-04 15:35:55

阅读数 65

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭