Spark
文章平均质量分 67
JSON_ZJS
热爱生活,热爱编程。
展开
-
Spark之Master主备切换机制原理
Spark之Master主备切换机制原理原创 2018-04-01 14:23:27 · 412 阅读 · 0 评论 -
left join 和 left outer join 的区别
通俗的讲: A left join B 的连接的记录数与A表的记录数同 A right join B 的连接的记录数与B表的记录数同 A left join B 等价B right join A table A: Field_K, Field_A 1 a ...转载 2018-05-15 12:59:00 · 2050 阅读 · 0 评论 -
transform以及实时黑名单过滤案例实战
package com.bynear.spark_Streaming;import com.google.common.base.Optional;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;...原创 2018-05-15 13:04:56 · 622 阅读 · 0 评论 -
sql基本命令整理
1、 查看数据库中的表或查询数据库;show tables/databases;2、 查看数据库中所有的表show tables;(前提是使用use database 数据库;)3、 查看数据表结构describe 表名;4、 创建数据库CARATE DATABASE 数据库名;create database studentoa;5、 删除数据库DROP D...原创 2018-05-15 14:10:42 · 1639 阅读 · 0 评论 -
Spark中的Window滑动窗口之热点搜索词滑动统计!
package com.bynear.spark_Streaming;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.jav...原创 2018-05-15 16:15:26 · 663 阅读 · 0 评论 -
基于持久化的wordcount程序 foreachRDD
基于持久化的wordCount程序!中途遇到了一个坑! 自己手动封装一个静态线程池,使用RDD的foreachPartition操作,并且在该操作内部,从静态连接池中,通过静态方法,获取一个连接,使用之后再换回来,这样的话,可以在对个RDD的partition之间,也可以复用连接了,而且可以让连接池采取懒创建的策略,并且空闲一段时间后,将其释放掉。 代码: package com.b...原创 2018-05-16 16:34:11 · 460 阅读 · 0 评论 -
flume的配置和开启
配置文件: 编辑 flume-conf.properties agent1表示代理名称agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1配置source1agent1.sources.source1.type=spooldir agent1.sources.source1.spoolDir...原创 2018-06-11 14:46:17 · 717 阅读 · 1 评论 -
Flume整合SparkStreaming出现UnsupportedClassVersionError: org/apache/spark/streaming/flume/sink/SparkFlum
Flume整合SparkStreaming使用Poll方式拉取数据出现 UnsupportedClassVersionError: org/apache/spark/streaming/flume/sink/SparkFlumeProtocol : Unsupported major.minor version 52.0 问题: INFO node.Application: Starting...原创 2018-06-11 19:54:15 · 655 阅读 · 0 评论 -
zookeeper出现Error contacting service. It is probably not running.
在两个节点 的zookeeper搭建启动的时候出现如下报错 JMX enabled by default Using config: /root/app/zookeeper/bin/../conf/zoo.cfg Error contacting service. It is probably not running.查看zookeeper.out 日志报错如下2018-06-1...原创 2018-06-12 19:33:51 · 537 阅读 · 0 评论 -
新版csdn
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...原创 2018-06-20 22:14:43 · 258 阅读 · 0 评论 -
Hive出现 return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTa
return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTas Hadoop job information for Stage-1: number of mappers: 0; number of reducers: 0 2018-06-06 23:34:46,458 Stage-1 map = 0%, reduce = 0%...原创 2018-06-06 16:09:44 · 2953 阅读 · 0 评论 -
基于updateStageByKey算子实现缓存的实时wordCount程序
package com.bynear.spark_Streaming;import com.google.common.base.Optional;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.j...原创 2018-05-14 15:28:07 · 250 阅读 · 0 评论 -
SparkStreaming实时wordCount程序
package com.bynear.spark_Streaming;import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.ap...原创 2018-05-14 15:00:04 · 637 阅读 · 0 评论 -
SparkContext源码分析
SparkContext源码分析粗略的说明一下SparkContext源码!createTaskScheduler()针对不同的提交模式,执行不同的方法(local,standalone、yanr等)standalone模式===》》创建一个TaskSchedulerImpl1、 底层通过操作SchedulerBackend,针对不同种类的cluster(stand原创 2018-04-01 14:28:41 · 188 阅读 · 0 评论 -
每日top3热点搜索词统计案例
数据格式:日期,用户,搜索词,平台,版本需求:1、筛选出符合条件(城市,平台,版本)的数据2、统计每天搜索uv排名前三的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒叙排序4、将数据保存到hive表中思路分析1、针对原始数据(HDFS文件),获取输入RDD2、使用filter算法,针对输入RDD中的数据,进行数据过滤,过滤出符合条件的数据2.1普通的原创 2018-05-08 21:35:47 · 2045 阅读 · 0 评论 -
SparkSQL 内置函数的使用(JAVA与Scala版本)
SparkSQL 内置函数的使用(JAVA与Scala版本)agg的使用(根据时间,去重id相同,统计相同时间内的id个数)Scala版本!package com.bynear.Scalaimport org.apache.spark.sql.functions._import org.apache.spark.sql.types.{IntegerType, StringTy原创 2018-04-25 15:52:55 · 1251 阅读 · 0 评论 -
Linux中安装nc(netcat)常见问题
Linux中安装nc(netcat)常见问题Spark Streaming编写wordCount程序时,在Linux集群中需要安装nc,来对程序中使用到的端口进行开放。在安装nc的时候,常出现的问题有以下几点!1、不建议使用 yum staill nc 进行安装,yum安装的为最先版本的netcat出现的报错为:[root@Spark02 hadoop]# nc -lk 9999原创 2018-05-09 22:47:06 · 12151 阅读 · 1 评论 -
SparkSQL中UDAF案例分析
SparkSQL中UDAF案例分析1、统计单词的个数package com.bynear.spark_sql;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.User...原创 2018-05-04 14:34:02 · 550 阅读 · 0 评论 -
Spark SQL 开窗函数row_number的使用
Spark SQL 开窗函数row_number的使用窗口函数 row_number即为分组取topN参考文本: 型号 类别 销售量/月小米,手机,250华为,手机,450苹果,手机,1000三星,手机,2500小米Pro,笔记本,1500苹果Pro,笔记本,原创 2018-04-26 11:33:50 · 5427 阅读 · 0 评论 -
eq,neq,gt,lt等表达式缩写
eq,neq,gt,lt等表达式缩写eq 等于neq 不等于gt 大于egt 大于等于lt 小于elt 小于等于like LIKEbetween BETWEEN原创 2018-05-04 17:54:57 · 5743 阅读 · 0 评论 -
Spark SQL 中UDF的讲解
Spark SQL 中UDF的讲解User Define Function, 用户自定义函数,简称UDF,存在与很多组件中。在使用Sparksql的人都遇到了Sparksql所支持的函数太少了的难处,除了最基本的函数,Sparksql所能支撑的函数很少,肯定不能满足正常的项目使用,UDF可以解决问题。SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似原创 2018-04-26 19:50:30 · 843 阅读 · 0 评论 -
Spark SQL UDF2的使用
Spark SQL UDF2的使用继续之前的UDF1进行说明:UDF1博客地址点击打开链接与UDF1的区别在于两个参数:需求: 获取文本中的两个数字 计算每行中数字的和文本:1,12,23,34,45,56,67,78,89,910,10代码:package com.bynear.spark_sql;import jav原创 2018-04-27 16:10:52 · 1139 阅读 · 0 评论 -
spark submit参数及调优
spark submit参数及调优原文地址spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \ --class \ --master \ --deploy-mode \ --conf = \ ... # ot原创 2018-05-07 10:02:36 · 443 阅读 · 0 评论 -
SparkSQL性能优化
SparkSQL性能优化1、设置shuffle过程中的并行度,可以通过spark.sql.shuffle.partitions设置shuffle并行度。(在SQLContext.setConf()中设置)。2、Hive数据仓库创建的时候,合理设置数据类型,比如设置成Int的就不需要设置成BIGINT,减少数据类型的不必要开销。3、SQL语句的优化,尽量给出明确的列,比如select n原创 2018-05-07 10:56:16 · 533 阅读 · 0 评论 -
基于ZooKeeper实现HA高可用性以及自动主备切换
默认情况下,standalone cluster manager对于worker节点的失败是具有容错性的(迄今为止,Spark自身而言对于丢失部分计算工作是有容错性的,它会将丢失的计算工作迁移到其他worker节点上执行)。然而,调度器是依托于master进程来做出调度决策的,这就会造成单点故障:如果master挂掉了,就没法提交新的应用程序了。为了解决这个问题,spark提供了两种高可用性方案,...原创 2018-06-13 22:58:57 · 7748 阅读 · 0 评论