![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Spark,HBase,Flink,MapReduce
单林敏
心外无物,知行合一
CSDN 做为自己的简要易忘小知识点的记录,而自己的感想和长文一般发布在自己的个人blog,网址如下:
https://www.wolfdan.cn/
展开
-
RDD编程学习笔记2_键值对RDD_综合案例-计算每种图书的每天平均销量
常见操作reduceByKey和groupByKey的区别groupByKey只做分组,不会进行汇总reduceByKey会进行汇总求和(写过map,reduce函数框架的话应该很好理解)groupByKey可以通过利用Iterable的容器函数达到一些reduceByKey的效果以下三种操作是等价的综合案例-计算每种图书的每天平均销量scala> val rdd = sc...原创 2020-01-29 14:21:36 · 1491 阅读 · 0 评论 -
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
失败源Spark的版本名称中的“without Hadoop”具有误导性:这意味着该版本不与特定的Hadoop发行版绑定,并不意味着没有hadoop即可运行:用户应指出在哪里可以找到Hadoop我看到的教程中都是在$SPARK_HOME/conf/spark-env.sh,添加下列行(这下面更具有误导性,也可能是我太笨了,2020春节期间困扰了我好几天)# 编辑spark-env.sh文件(...原创 2020-01-27 18:18:25 · 1938 阅读 · 1 评论 -
RDD编程学习笔记3_数据读写
本地读取scala> var textFile = sc.textFile("file:///root/1.txt")textFile: org.apache.spark.rdd.RDD[String] = file:///root/1.txt MapPartitionsRDD[57] at textFile at <console>:24scala> textFi...原创 2020-01-29 20:41:45 · 407 阅读 · 0 评论 -
HBase1.1.x部署在Hadoop2.6.0上(3台vm虚拟机的部分分布式)
HBase1.1.x部署在Hadoop2.6.0上(3台vm虚拟机的部分分布式)下载hbase.apache官网配置环境变量/etc/profile#hbaseexport HBASE_HOME=/usr/local/soft/hbase-1.1.5export PATH=$PATH:$HBASE_HOME/bin配置$HBASE_HOME/conf/hbase-env.shex...原创 2020-01-29 17:54:25 · 301 阅读 · 0 评论 -
RDD编程基础学习笔记1_Spark优雅的wordCount
hdfs默认主目录是/user/用户名(可能要自己在hdfs中先创建好)所以在hdfs操作文件的时候,1.txt 等价于 /usr/用户名/1.txt ,也等价于 hdfs://localhost:9000/usr/hadoop/1.txt下面这句是因为自己下面的疑问,自己错操作成了 /usr 而非 /user直接在master的终端hadoop fs -cat 1.txt则不行,必须在s...原创 2020-01-29 11:16:08 · 350 阅读 · 0 评论 -
Spark SQL学习笔记
Spark SQL概述MapReduce有Hive作为调用接口,可以不用每次都手写MapReduce,而是让Hive自动生成MapReduce代码自己执行那么Spark框架就有类似的产品,Shark(完全照搬Hive的设计Shark两个缺点因为完全照搬Hive,Hive是针对MapRudece开发的,所以Shark照搬了Hive就不好对Spark进行新增优化策略Spark线程级运行,M...原创 2020-01-30 16:52:11 · 247 阅读 · 0 评论 -
kafka实操笔记
kafka测试[root@master ~]# cd /usr/local/soft/kafka_2.11-0.10.1.0[root@master kafka_2.11-0.10.1.0]# bin/zookeeper-server-start.sh config/zookeeper.properties# ---一堆[info]ERROR Unexpected exception, e...原创 2020-02-01 12:04:16 · 249 阅读 · 0 评论 -
HDFS性质探索
正则优先检测本地匹配我本来想通过正则表达式删除远程文件,但是由于本地有匹配,所以会先解析成rm MySQL**到HDFS去执行只有当本地没有匹配的时候才会把正则表达式传到HDFS解析执行...原创 2020-02-05 15:50:24 · 115 阅读 · 0 评论 -
外排序-处理极大量数据的排序算法--5 亿整数的大文件排序的思路
外排序**外排序(External sorting)**是指能够处理极大量数据的排序算法。通常来说,外排序处理的数据不能一次装入内存,只能放在读写较慢的外存储器(通常是硬盘)上。外排序通常采用的是一种“排序-归并”的策略。在排序阶段,先读入能放在内存中的数据量,将其排序输出到一个临时文件,依此进行,将待排序数据组织为多个有序的临时文件。而后在归并阶段将这些临时文件组合为一个大的有序文件,也即排序...原创 2020-02-22 18:42:01 · 1599 阅读 · 0 评论 -
Idea本地运行spark,操作HDFS(spark-without-hadoop版的spark)
操作一般大家都是用的spark-x.x.x-bin-hadoop2.x的spark而我用的是spark-2.1.0-bin-without-hadoop,所以我们要使用HDFS的时候,就必须让程序能够找到Hadoop的HDFS所以我们不仅要像一般的Idea运行集群操作一样给工程添加$SPARK_HOME/jars到工程的Libraries,参考Window环境下使用IntelliJ IDE...原创 2020-02-05 17:32:42 · 4152 阅读 · 0 评论 -
spark-submit运行idea生成的jar包无法找到主类
背景我在网上把基本上能找到的方法都试过了,然后追根溯源到了idea搭建spark环境上面,这种搭建教程千奇百怪,各不相同,最终看到一位大佬的操作之后终于找到了我debug 5小时的bug(如题)解决方案搭建可以参考Idea本地运行spark,操作HDFS(spark-without-hadoop版的spark)关键在于打包jar包时的选择JAR files 来自库提取到目标JAR –...原创 2020-02-06 11:32:40 · 3033 阅读 · 1 评论