大数据
Amy
总是计划很多却鲜少实施
展开
-
spark2学习之(六)——用shell脚本批量执行spark任务
应用场景:原始数据按日期存放在HDFS的某个目录下,需求是清洗数据,清洗后的结果仍然按天存入HDFS中,由于数据量巨大,spark无法一次性处理全部数据,所以只能一次读入一天的数据,写个脚本让spark任务自动按天处理数据。HDFS上数据位置:##HDFS目录结构/user/data/dt=20200801/user/data/dt=20200802/user/data/dt-20200803shell脚本:#!/bin/bashbegin=20200801end=20200原创 2020-08-26 11:18:49 · 1239 阅读 · 0 评论 -
图数据库学习笔记
「JanusGraph与HugeGraph」图形数据库 - 技术选型-功能对比https://blog.csdn.net/lovebyz/article/details/88800363原创 2020-08-21 10:54:42 · 177 阅读 · 0 评论 -
Spark开发问题汇总(Java)
Spark(Java)的一些坑https://blog.csdn.net/Zsigner/article/details/101017389原创 2020-08-11 14:52:16 · 108 阅读 · 0 评论 -
spark2学习之(五)——spark SQL(Java+eclipse+maven)
操作系统:Mac OS/Linux开发环境:java + eclipse + mavenspark SQL是spark的一个模块,可以用来操作结构化数据(如JSON、Hive、Parquet)和半结构化数据。1、DataFramespark SQL使用的最核心的数据类型是DataFrame,DataFrame结构如下图在DataFrame上支持直接运行SQL查询。可以从外部...原创 2019-08-12 00:24:52 · 1703 阅读 · 0 评论 -
spark2学习笔记之(四)——共享变量:广播变量(broadcast variable)
spark的第二种共享变量是广播变量,它可以让程序高效地向所有工作节点发送一个较大的只读值。1、广播变量的使用应用场景:想向所有工作节点发送机器学习训练的模型参数,e.g.命名实体识别、分词的模型参数。spark2.X的java代码如下:SparkConf conf = new SparkConf();conf.setAppName("RealNameDS");conf...原创 2019-08-11 22:44:53 · 995 阅读 · 0 评论 -
spark2学习笔记之(三)——共享变量:累加器(Accumulator)
spark有两种类型的共享变量:累加器和广播变量。累加器用来对信息进行聚合,广播变量用来高效分发较大的对象。1、累加器使用应用场景:我们想在并发读取日志文件的同时统计出总共有多少空行。这需要一个全局变量,spark里提供了一个累加器可以实现这种效果。spark 2.X的代码如下:SparkConf conf = new SparkConf();conf.setAppName...原创 2019-08-08 16:38:36 · 550 阅读 · 0 评论 -
spark2学习笔记之(二)——RDD常用操作和函数
在spark里操作和函数是两个东西。操作分为转化操作和行动操作两种,区别是:转化操作:返回一个新的RDD,惰性求值行动操作:向驱动器程序(driver)返回结果,或者把结果写入外部系统,触发实际计算函数是用在转化操作内的,用来自己定义具体怎么转化的,详见第3小节。1、针对各个元素的转化操作基本RDD 函数名 目的 注意 filter(Func) 找满...原创 2019-08-01 11:04:17 · 579 阅读 · 0 评论 -
spark2学习笔记之(一)——用spark-shell读取HDFS文件进行wordCount
1、ssh登录到master节点ssh -p端口用户名@ip,例如:ssh -p22 root@192.168.0.502、修改本地host文件hadoop中访问各个节点一般不直接只用ip,而是用主机名,所以复制master节点上已经配置好的host文件到本地执行cat /etc/hosts,将内容复制到本机的host文件里3、登录hadoop,上传一个文件到HDFS,用于...原创 2019-07-30 16:33:59 · 2288 阅读 · 0 评论 -
MapReduce数据算法之(一)——二次排序
最近项目在用MapReduce,买了本《数据算法:Hadoop/Spark 大数据处理技巧》,收获颇多,记下学习笔记。我们知道MapReduce里除了常用的Text、IntWritable、LongWritable等基本数据类型以外,还支持自定义的复杂类型,自定义类型作为Value值时经常用到,但是作为Key没太懂什么情况下用。看了二次排序终于明白怎么用了。问题描述:有一堆温度的实验数...原创 2019-03-18 17:05:07 · 594 阅读 · 0 评论