2018年05月_JSON_ZJS

12月 10月 09月 07月 06月 05月 04月 03月 01月

原创基于持久化的wordcount程序 foreachRDD

基于持久化的wordCount程序！中途遇到了一个坑！自己手动封装一个静态线程池，使用RDD的foreachPartition操作，并且在该操作内部，从静态连接池中，通过静态方法，获取一个连接，使用之后再换回来，这样的话，可以在对个RDD的partition之间，也可以复用连接了，而且可以让连接池采取懒创建的策略，并且空闲一段时间后，将其释放掉。代码： package com.b...

2018-05-16 16:34:11 461

原创 Spark中的Window滑动窗口之热点搜索词滑动统计！

package com.bynear.spark_Streaming;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.jav...

2018-05-15 16:15:26 663

原创 sql基本命令整理

1、查看数据库中的表或查询数据库；show tables/databases；2、查看数据库中所有的表show tables；（前提是使用use database 数据库；）3、查看数据表结构describe 表名；4、创建数据库CARATE DATABASE 数据库名；create database studentoa；5、删除数据库DROP D...

2018-05-15 14:10:42 1639

原创 transform以及实时黑名单过滤案例实战

package com.bynear.spark_Streaming;import com.google.common.base.Optional;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;...

2018-05-15 13:04:56 622

转载 left join 和 left outer join 的区别

通俗的讲： A left join B 的连接的记录数与A表的记录数同 A right join B 的连接的记录数与B表的记录数同 A left join B 等价B right join A table A: Field_K, Field_A 1 a ...

2018-05-15 12:59:00 2050

原创基于updateStageByKey算子实现缓存的实时wordCount程序

package com.bynear.spark_Streaming;import com.google.common.base.Optional;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.j...

2018-05-14 15:28:07 250

原创 SparkStreaming实时wordCount程序

package com.bynear.spark_Streaming;import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.ap...

2018-05-14 15:00:04 638

原创 Linux中安装nc（netcat）常见问题

Linux中安装nc（netcat）常见问题Spark Streaming编写wordCount程序时，在Linux集群中需要安装nc，来对程序中使用到的端口进行开放。在安装nc的时候，常出现的问题有以下几点!1、不建议使用 yum staill nc 进行安装，yum安装的为最先版本的netcat出现的报错为：[root@Spark02 hadoop]# nc -lk 9999

2018-05-09 22:47:06 12153 1

原创每日top3热点搜索词统计案例

数据格式：日期，用户，搜索词，平台，版本需求：1、筛选出符合条件（城市，平台，版本）的数据2、统计每天搜索uv排名前三的搜索词3、按照每天的top3搜索词的uv搜索总次数，倒叙排序4、将数据保存到hive表中思路分析1、针对原始数据（HDFS文件），获取输入RDD2、使用filter算法，针对输入RDD中的数据，进行数据过滤，过滤出符合条件的数据2．1普通的

2018-05-08 21:35:47 2048

原创 SparkSQL性能优化

SparkSQL性能优化1、设置shuffle过程中的并行度,可以通过spark.sql.shuffle.partitions设置shuffle并行度。（在SQLContext.setConf（）中设置）。2、Hive数据仓库创建的时候，合理设置数据类型，比如设置成Int的就不需要设置成BIGINT，减少数据类型的不必要开销。3、SQL语句的优化，尽量给出明确的列，比如select n

2018-05-07 10:56:16 534

原创 spark submit参数及调优

spark submit参数及调优原文地址spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \ --class \ --master \ --deploy-mode \ --conf = \ ... # ot

2018-05-07 10:02:36 444

原创 eq,neq,gt,lt等表达式缩写

eq,neq,gt,lt等表达式缩写eq 等于neq 不等于gt 大于egt 大于等于lt 小于elt 小于等于like LIKEbetween BETWEEN

2018-05-04 17:54:57 5751

原创 SparkSQL中UDAF案例分析

SparkSQL中UDAF案例分析1、统计单词的个数package com.bynear.spark_sql;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.User...

2018-05-04 14:34:02 550