2017年11月_bitcarmanlee

转载海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断，但不会漏掉判断。也就是Blo

2017-11-26 00:00:08 871

原创 spark中的广播变量与累加器

1.累加器(accumulator)累加器是仅仅被相关操作累加的变量，因此可以在并行中被有效地支持。它可以被用来实现计数器和总和。累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法在累加器上进行累加操作。但是，它们不能读取它的值。只有驱动程序能够读取它的值，通过累加器的value方法。看看在spa

2017-11-25 22:09:01 2787

原创 spark 两个rdd求交集，差集，并集

1.前言spark中两个rdd，经常需要做交集，差集，并集等操作。好比任何一门编程语言中两个集合，交并差也是常见的需求。现在我们看看在spark中怎么实现两个rdd的这种操作。为了方便看到结果，在spark shell中测试如下代码。先生成两个rddscala> val rdd1 = sc.parallelize(List("a", "b","c"))rdd1: org.apache.spar

2017-11-24 22:58:50 37295

原创 ubuntu修改默认root密码

想在自己的ubuntu里做su root的操作，猛然发现自己不知道root密码，然后也意识到，好像自己也一直没有给ubuntu设置过root密码。特意搜了一把，发现ubuntu的默认root密码是随机的，每次开机都会有一个新的root密码。为了设置新的root密码，可以做如下操作： 1.输入sudo passwd命令，然后会提示输入当前用户的密码。 2.按enter键，终端会提示输入新的密码并确

2017-11-24 10:43:51 25784 3

原创 awk字符串匹配与传参

1.模式匹配有名为00的文件，里面的具体内容如下：123 abc,100196,an123 abc,100196,an113 abc,100196,an133 abc,100196,an想要对第二个字段做模式匹配，匹配里面是否有100196这个字符串。最开始博主用了如下方式：#!/bin/bashapp=$1awk -F "\t" '$2~/app/ {a[$1]++} END{pri

2017-11-22 21:43:06 12893

原创 list的一些常见用法总结(实用干货收藏)

1.将list转成String要将list转成String，常规的办法是使用for循环。很明显那样代码会比较冗长不够优雅。在java8以后，我们可以有以下的简便方法： @Test public void listjoin() { // 如果是String类型，直接用String.join String[] raw1 = {"a", "b", "c", "d

2017-11-21 23:07:13 2372

转载 Spark性能优化指南——高级篇

数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。

2017-11-13 22:15:50 659

转载 Spark性能优化指南——基础篇

1. 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更

2017-11-13 21:34:15 530

原创 java8中的Stream用法详解

1.为什么java8中加入StreamStream 作为 Java 8 的一大亮点，它与 java.io 包里的 InputStream 和 OutputStream 是完全不同的概念。Java 8 中的 Stream 是对集合（Collection）对象功能的增强，它专注于对集合对象进行各种非常便利、高效的聚合操作（aggregate operation），或者大批量数据操作 (bulk data

2017-11-09 17:37:10 54779 8

原创 Ensemble Learning方法总结

1.从Boosting到Stacking，概览集成学习的方法与性能原文地址：https://www.jiqizhixin.com/articles/2017-08-28-32.腾讯广告点击大赛：对stacking的一些基本介绍原文地址：https://www.qcloud.com/community/article/8950553.Tencent_Social_Ads 原文地址：https

2017-11-08 22:41:32 1201

bitcarmanlee的博客