自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (9)
  • 收藏
  • 关注

原创 基于持久化的wordcount程序 foreachRDD

基于持久化的wordCount程序!中途遇到了一个坑! 自己手动封装一个静态线程池,使用RDD的foreachPartition操作,并且在该操作内部,从静态连接池中,通过静态方法,获取一个连接,使用之后再换回来,这样的话,可以在对个RDD的partition之间,也可以复用连接了,而且可以让连接池采取懒创建的策略,并且空闲一段时间后,将其释放掉。 代码: package com.b...

2018-05-16 16:34:11 461

原创 Spark中的Window滑动窗口之热点搜索词滑动统计!

package com.bynear.spark_Streaming;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.jav...

2018-05-15 16:15:26 663

原创 sql基本命令整理

1、 查看数据库中的表或查询数据库;show tables/databases;2、 查看数据库中所有的表show tables;(前提是使用use database 数据库;)3、 查看数据表结构describe 表名;4、 创建数据库CARATE DATABASE 数据库名;create database studentoa;5、 删除数据库DROP D...

2018-05-15 14:10:42 1639

原创 transform以及实时黑名单过滤案例实战

package com.bynear.spark_Streaming;import com.google.common.base.Optional;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;...

2018-05-15 13:04:56 622

转载 left join 和 left outer join 的区别

通俗的讲: A left join B 的连接的记录数与A表的记录数同 A right join B 的连接的记录数与B表的记录数同 A left join B 等价B right join A table A: Field_K, Field_A 1 a ...

2018-05-15 12:59:00 2050

原创 基于updateStageByKey算子实现缓存的实时wordCount程序

package com.bynear.spark_Streaming;import com.google.common.base.Optional;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.j...

2018-05-14 15:28:07 250

原创 SparkStreaming实时wordCount程序

package com.bynear.spark_Streaming;import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.ap...

2018-05-14 15:00:04 638

原创 Linux中安装nc(netcat)常见问题

Linux中安装nc(netcat)常见问题Spark Streaming编写wordCount程序时,在Linux集群中需要安装nc,来对程序中使用到的端口进行开放。在安装nc的时候,常出现的问题有以下几点!1、不建议使用 yum staill nc  进行安装,yum安装的为最先版本的netcat出现的报错为:[root@Spark02 hadoop]# nc -lk 9999

2018-05-09 22:47:06 12153 1

原创 每日top3热点搜索词统计案例

数据格式:日期,用户,搜索词,平台,版本需求:1、筛选出符合条件(城市,平台,版本)的数据2、统计每天搜索uv排名前三的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒叙排序4、将数据保存到hive表中思路分析1、针对原始数据(HDFS文件),获取输入RDD2、使用filter算法,针对输入RDD中的数据,进行数据过滤,过滤出符合条件的数据2.1普通的

2018-05-08 21:35:47 2048

原创 SparkSQL性能优化

SparkSQL性能优化1、设置shuffle过程中的并行度,可以通过spark.sql.shuffle.partitions设置shuffle并行度。(在SQLContext.setConf()中设置)。2、Hive数据仓库创建的时候,合理设置数据类型,比如设置成Int的就不需要设置成BIGINT,减少数据类型的不必要开销。3、SQL语句的优化,尽量给出明确的列,比如select n

2018-05-07 10:56:16 534

原创 spark submit参数及调优

spark submit参数及调优原文地址spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \  --class \  --master \  --deploy-mode \  --conf = \  ... # ot

2018-05-07 10:02:36 444

原创 eq,neq,gt,lt等表达式缩写

eq,neq,gt,lt等表达式缩写eq 等于neq 不等于gt 大于egt 大于等于lt 小于elt 小于等于like LIKEbetween BETWEEN

2018-05-04 17:54:57 5751

原创 SparkSQL中UDAF案例分析

SparkSQL中UDAF案例分析1、统计单词的个数package com.bynear.spark_sql;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.User...

2018-05-04 14:34:02 550

kaiti.ttf.gz

Android设置全局字体,可以设置TextView的字体为自己设置的楷体,该资源为字体中非楷体,设置方法见博客https://blog.csdn.net/JSON_ZJS/article/details/108751127

2020-09-23

非常重要的一张图-分析代理dao的执行过程.png

非常重要的一张图-分析代理dao的执行过程,非常详细的介绍了mybatis动态代理实现Dao过程,无法在写DaoImpl实现类,讲解了Mybatis中使用getMapper()动态代理实现DAO方法。解释了为什么可以使用Sqlsession.update()方法,删除数据

2019-10-16

非常重要的一张图-分析编写dao实现类Mybatis的执行过程.png

非常重要的一张图-分析编写dao实现类Mybatis的执行过程,非常详细的介绍了mybatis非代理实现Dao过程,讲解了Mybatis中使用DaoImpl实现持久层Dao的方法。讲解了为什么可以使用Sqlsession.update()方法,删除数据。

2019-10-15

Android:广告闪屏,以及仿微信朋友圈查看图片!

1、APP启动是,广告闪屏,倒计时,以及直接跳过 2、仿微信朋友圈查看图片!

2018-09-14

Spark学习笔记(纯打字完成)

根据各大视频网站中的视频,总结出的Spark2.0的细节笔记

2018-08-30

Hadoop权威指南第三版,中文+英文高清版pdf

资源文件中包含Hadoop权威指南第三版,中文和英文,两本高清版PDF书籍,为学习Hadoop的有志青年提供捷径!

2018-08-07

Linux中netcat

SparkStreaming中进行实时处理,Linux本地集群需要使用netca来进行端口的开放!Linux版本为:CtenOS 6.4

2018-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除