大数据
iwtbs_kevin
曾在快手/阿里实习,现在字节跳动data担任推荐算法工程师
展开
-
Spark 中如何两个RDD进行嵌套操作——广播+累加器
文章目录累加器广播变量累加器file = sc.textFile(inputFile)# 创建Accumulator[Int]并初始化为0 blankLines = sc.accumulator(0)def extractCallSigns(line): global blankLines # 访问全局变量 if (line == ""): blankLines += 1 ...原创 2020-04-30 18:05:56 · 1519 阅读 · 0 评论 -
海量数据找topN
文章目录从10亿个数据(int型占据4B)中找中位数,内存限制为1GB从10亿数中选取前1000大的数字从10亿个数据(int型占据4B)中找中位数,内存限制为1GB不可能一次性把数据全部加载到内存中,再使用快速排序算法,因为10亿*4B大约为4GB,内存不够可以一次性读入1GB的数据(分10次读取),然后对读入的1GB数据按照最高位即第32位的值进行分类并写入文件,如果最高位是1,写入fi...原创 2020-03-05 15:48:02 · 1191 阅读 · 0 评论 -
spark算子
pyspark-RDDSpark本地: Scala实例下面是我以前总结的一些常用的Spark算子以及Scala函数:map():将原来 RDD 的每个数据项通过 map 中的用户自定义函数 f 映射转变为一个新的元素。mapPartitions(function) :map()的输入函数是应用于RDD中每个元素,而mapPartitions()的输入函数是应用于每个分区。mapValue...原创 2019-11-12 14:58:51 · 135 阅读 · 0 评论 -
用docker搭建Hadoop/Spark/HDFS大数据环境
大数据很有前景,但是搭建环境很麻烦,这里介绍如何用docker来搭建大数据环境。下载代码git@github.com:iwtbs/docker-hadoop-spark-workbench.git启动容器docker-compose up -d查看部署结果Namenode: http://localhost:50070Datanode: http://localhost:50...原创 2019-11-06 19:45:08 · 822 阅读 · 0 评论 -
大数据的一些基本概念
文章目录hadoop生态Spark StreamingFlinkETLhadoop生态Pig:一个基于Hadoop的大规模数据分析平台,为海量数据的并行计算,提供了一个简单的操作和编程接口Hive:就是一个工具,有完整的SQL查询的功能,可以将sql语句转换为MapReduce任务进行运行 ,当然也要基于hadoopZooKeeper:高效的,可拓展的协调系统,存储和协调关键共享状态...原创 2019-10-29 21:19:04 · 428 阅读 · 0 评论 -
SparkMLlib简介
1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能...转载 2019-10-29 20:39:42 · 257 阅读 · 0 评论 -
Spark Streaming例子
Spark Streaming 概要在内部,其按如下方式运行。Spark Streaming接收到实时数据流同时将其划分为分批,这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。例子在深入了解如何编写你自己的SS程序之前,让我们先迅速浏览下基本的SS程序是什么样的。假设我们想统计文本数据中单词个数(数据来自于监听一个TCP接口的数据服务器)。你只需要这样做:第一...原创 2019-10-29 20:10:05 · 132 阅读 · 0 评论 -
大数据Hadoop,spark学习
Hadoop基础一个 Hadoop job 通常都是这样的:从 HDFS 读取输入数据;在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘;在 Reduce 阶段,从各个处于 Map 阶段的机器中读取 Map 计算的中间结果,使用用户定义的 reduce function, 通常最后把结果写回 HDFS;很多计算,就比如我们刚才的例子,都可以拆分成...原创 2019-10-10 17:48:42 · 197 阅读 · 0 评论