- 博客(13)
- 资源 (9)
- 收藏
- 关注
原创 基于持久化的wordcount程序 foreachRDD
基于持久化的wordCount程序!中途遇到了一个坑! 自己手动封装一个静态线程池,使用RDD的foreachPartition操作,并且在该操作内部,从静态连接池中,通过静态方法,获取一个连接,使用之后再换回来,这样的话,可以在对个RDD的partition之间,也可以复用连接了,而且可以让连接池采取懒创建的策略,并且空闲一段时间后,将其释放掉。 代码: package com.b...
2018-05-16 16:34:11 461
原创 Spark中的Window滑动窗口之热点搜索词滑动统计!
package com.bynear.spark_Streaming;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.jav...
2018-05-15 16:15:26 663
原创 sql基本命令整理
1、 查看数据库中的表或查询数据库;show tables/databases;2、 查看数据库中所有的表show tables;(前提是使用use database 数据库;)3、 查看数据表结构describe 表名;4、 创建数据库CARATE DATABASE 数据库名;create database studentoa;5、 删除数据库DROP D...
2018-05-15 14:10:42 1639
原创 transform以及实时黑名单过滤案例实战
package com.bynear.spark_Streaming;import com.google.common.base.Optional;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;...
2018-05-15 13:04:56 622
转载 left join 和 left outer join 的区别
通俗的讲: A left join B 的连接的记录数与A表的记录数同 A right join B 的连接的记录数与B表的记录数同 A left join B 等价B right join A table A: Field_K, Field_A 1 a ...
2018-05-15 12:59:00 2050
原创 基于updateStageByKey算子实现缓存的实时wordCount程序
package com.bynear.spark_Streaming;import com.google.common.base.Optional;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.j...
2018-05-14 15:28:07 250
原创 SparkStreaming实时wordCount程序
package com.bynear.spark_Streaming;import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.ap...
2018-05-14 15:00:04 638
原创 Linux中安装nc(netcat)常见问题
Linux中安装nc(netcat)常见问题Spark Streaming编写wordCount程序时,在Linux集群中需要安装nc,来对程序中使用到的端口进行开放。在安装nc的时候,常出现的问题有以下几点!1、不建议使用 yum staill nc 进行安装,yum安装的为最先版本的netcat出现的报错为:[root@Spark02 hadoop]# nc -lk 9999
2018-05-09 22:47:06 12153 1
原创 每日top3热点搜索词统计案例
数据格式:日期,用户,搜索词,平台,版本需求:1、筛选出符合条件(城市,平台,版本)的数据2、统计每天搜索uv排名前三的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒叙排序4、将数据保存到hive表中思路分析1、针对原始数据(HDFS文件),获取输入RDD2、使用filter算法,针对输入RDD中的数据,进行数据过滤,过滤出符合条件的数据2.1普通的
2018-05-08 21:35:47 2048
原创 SparkSQL性能优化
SparkSQL性能优化1、设置shuffle过程中的并行度,可以通过spark.sql.shuffle.partitions设置shuffle并行度。(在SQLContext.setConf()中设置)。2、Hive数据仓库创建的时候,合理设置数据类型,比如设置成Int的就不需要设置成BIGINT,减少数据类型的不必要开销。3、SQL语句的优化,尽量给出明确的列,比如select n
2018-05-07 10:56:16 534
原创 spark submit参数及调优
spark submit参数及调优原文地址spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \ --class \ --master \ --deploy-mode \ --conf = \ ... # ot
2018-05-07 10:02:36 444
原创 eq,neq,gt,lt等表达式缩写
eq,neq,gt,lt等表达式缩写eq 等于neq 不等于gt 大于egt 大于等于lt 小于elt 小于等于like LIKEbetween BETWEEN
2018-05-04 17:54:57 5751
原创 SparkSQL中UDAF案例分析
SparkSQL中UDAF案例分析1、统计单词的个数package com.bynear.spark_sql;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.User...
2018-05-04 14:34:02 550
kaiti.ttf.gz
2020-09-23
非常重要的一张图-分析代理dao的执行过程.png
2019-10-16
非常重要的一张图-分析编写dao实现类Mybatis的执行过程.png
2019-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人