自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bitcarmanlee的博客

https://github.com/bitcarmanlee/easy-algorithm-interview-and-practice 同步更新,欢迎star

  • 博客(10)
  • 收藏
  • 关注

转载 海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断,但不会漏掉判断。也就是Blo

2017-11-26 00:00:08 871

原创 spark中的广播变量与累加器

1.累加器(accumulator)累加器是仅仅被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和总和。 累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法在累加器上进行累加操作。但是,它们不能读取它的值。只有驱动程序能够读取它的值,通过累加器的value方法。 看看在spa

2017-11-25 22:09:01 2787

原创 spark 两个rdd求交集,差集,并集

1.前言spark中两个rdd,经常需要做交集,差集,并集等操作。好比任何一门编程语言中两个集合,交并差也是常见的需求。现在我们看看在spark中怎么实现两个rdd的这种操作。 为了方便看到结果,在spark shell中测试如下代码。先生成两个rddscala> val rdd1 = sc.parallelize(List("a", "b","c"))rdd1: org.apache.spar

2017-11-24 22:58:50 37295

原创 ubuntu修改默认root密码

想在自己的ubuntu里做su root的操作,猛然发现自己不知道root密码,然后也意识到,好像自己也一直没有给ubuntu设置过root密码。特意搜了一把,发现ubuntu的默认root密码是随机的,每次开机都会有一个新的root密码。为了设置新的root密码,可以做如下操作: 1.输入sudo passwd命令,然后会提示输入当前用户的密码。 2.按enter键,终端会提示输入新的密码并确

2017-11-24 10:43:51 25784 3

原创 awk字符串匹配与传参

1.模式匹配有名为00的文件,里面的具体内容如下:123 abc,100196,an123 abc,100196,an113 abc,100196,an133 abc,100196,an想要对第二个字段做模式匹配,匹配里面是否有100196这个字符串。 最开始博主用了如下方式:#!/bin/bashapp=$1awk -F "\t" '$2~/app/ {a[$1]++} END{pri

2017-11-22 21:43:06 12893

原创 list的一些常见用法总结(实用干货收藏)

1.将list转成String要将list转成String,常规的办法是使用for循环。很明显那样代码会比较冗长不够优雅。在java8以后,我们可以有以下的简便方法: @Test public void listjoin() { // 如果是String类型,直接用String.join String[] raw1 = {"a", "b", "c", "d

2017-11-21 23:07:13 2372

转载 Spark性能优化指南——高级篇

数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。

2017-11-13 22:15:50 659

转载 Spark性能优化指南——基础篇

1. 前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更

2017-11-13 21:34:15 530

原创 java8中的Stream用法详解

1.为什么java8中加入StreamStream 作为 Java 8 的一大亮点,它与 java.io 包里的 InputStream 和 OutputStream 是完全不同的概念。Java 8 中的 Stream 是对集合(Collection)对象功能的增强,它专注于对集合对象进行各种非常便利、高效的聚合操作(aggregate operation),或者大批量数据操作 (bulk data

2017-11-09 17:37:10 54779 8

原创 Ensemble Learning方法总结

1.从Boosting到Stacking,概览集成学习的方法与性能 原文地址:https://www.jiqizhixin.com/articles/2017-08-28-32.腾讯广告点击大赛:对stacking的一些基本介绍 原文地址:https://www.qcloud.com/community/article/8950553.Tencent_Social_Ads 原文地址:https

2017-11-08 22:41:32 1201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除