自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

在知识的海洋中遨游

java工程师学习过程中的总结

  • 博客(22)
  • 资源 (13)
  • 收藏
  • 关注

原创 大数据实战练习(三、卡扣监控)

一、项目需求统计正常的卡扣个数,异常的卡扣个数,正常的摄像头个数,异常的摄像头个数,异常的摄像头详细信息。正常卡扣个数:monitor_camera_info 基本关系表中卡扣与摄像头的关系与在monitor_flow_action 监控数据表中,卡扣与摄像头的关系完全对应上 异常的卡扣个数:monitor_camera_info 基本关系表中卡扣与摄像头的关系,在监控的数据表中一条都没...

2019-01-18 14:20:26 539

原创 大数据实战练习(二、模拟数据)

一、集群启动1.启动zookeeper2.启动hdfs3.启动standalone./sbin/start-all.sh4.启动hive./hive --service metastore &二、编写代码1.模拟生成数据public class Data2File { public static String MONITOR_FLOW_ACTIO...

2019-01-16 09:28:27 1000

原创 大数据实战练习(一、项目概览)

一、大数据处理框架二、项目背景 https://download.csdn.net/download/qq_33283652/10915786根据对车流量的监控进行数据清洗及分析三、项目代码https://download.csdn.net/download/qq_33283652/10915990https://download.csdn.net/download/q...

2019-01-14 15:09:32 1627 1

原创 Storm学习记录(九、事物)

目的:保证消息有且只被执行一次一、分类1.强顺序流(强有序)引入事务(transaction)的概念,每个transaction(即每个tuple)关联一个transaction id。Transaction id从1开始,每个tuple会按照顺序+1。在处理tuple时,将处理成功的tuple结果以及transaction id同时写入数据库中进行存储。缺点:一次只能处理...

2019-01-14 13:23:05 141

原创 Storm学习记录(八、项目演练)

一、项目背景模拟分析中国移动某个基站的小区掉话率二、代码实现 https://download.csdn.net/download/qq_33283652/10915043https://download.csdn.net/download/qq_33283652/10915117三、项目启动1.启动zookeeper2.启动kafka集群./bin/kafk...

2019-01-14 10:47:53 136

原创 Storm学习记录(七、flume+storm+kafka整合)

一、集群启动1.启动zookeeper2.启动kafka./bin/kafka-server-start.sh -daemon ./config/server.properties3.搭建flume集群3.1上传并解压flume jar包3.2修改conf下的flume-env.shexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-o...

2019-01-13 21:59:00 436

原创 Storm学习记录(六、分布式远程过程调用)

一、简介DRPC 是通过一个 DRPC 服务端(DRPC server)来实现分布式 RPC 功能的。DRPC Server 负责接收 RPC 请求,并将该请求发送到 Storm中运行的 Topology,等待接收 Topology 发送的处理结果,并将该结果返回给发送请求的客户端。(其实,从客户端的角度来说,DPRC 与普通的 RPC 调用并没有什么区别。)DRPC设计目的:为了...

2019-01-13 19:35:30 280

原创 Storm学习记录(五、容错机制)

1.集群各节点挂掉的影响 nimbus挂掉对集群影响较小。当某个supervisor 挂掉后,zookeeper会向nimbus返回信息,当发现nimbus也挂掉后,会要求nimbus重启。当有新任务上传时,也会要求nimbus重启。其余的时候nimbus是闲置状态。supervisor挂掉后,zookeeper会在通知nimbus,nimbus会将分配到该supervis...

2019-01-13 15:06:48 233

原创 Storm学习记录(四、并发机制和通信机制)

一、并发机制Worker – 进程:一个Topology拓扑会包含一个或多个Worker(每个Worker进程只能从属于一个特定的Topology)这些Worker进程会并行跑在集群中不同的服务器上,即一个Topology拓扑其实是由并行运行在Storm集群中多台服务器上的进程所组成Executor – 线程:Executor是由Worker进程中生成的一个线程每个Worker进程...

2019-01-12 22:39:50 964 1

原创 Storm学习记录(三、Storm集群搭建)

一、单机搭建1.上传并解压jar包2.在storm目录下创建logs目录,以保存程序运行时的信息mkdir logs3.在bin目录下执行命令,启动zookeeper./storm dev-zookeeper >> ../logs/dev-zookeeper.out 2>&1 &4.启动nimbus./storm nimbus &...

2019-01-12 22:34:17 149

原创 Storm学习记录(二、分发策略与架构)

一、分发策略Shuffle Grouping:随机分组,随机派发stream里面的tuple,保证每个bolt task接收到的tuple数目大致相同。轮询,平均分配  Fields Grouping:按字段分组,比如,按"user-id"这个字段来分组,那么具有同样"user-id"的 tuple 会被分到相同的Bolt里的一个task, 而不同的"user-id"则可能会被分配到不同的t...

2019-01-12 17:10:56 306

原创 Storm学习记录(一、简介)

一、简介Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。Storm有如下特点:编程简单:开发人员只需要关注应用逻辑,而且跟Hadoop类似,Storm提供的编程原语也很简单 高性能,低延迟:可以应用于广告搜索引擎这种要求对广告主的操作...

2019-01-12 14:25:41 174

原创 spark学习记录(十四、kafka)

一、简介kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(kafka集群的server,负责处理消息读、写请求,存储消息,在kafka cluster...

2019-01-10 16:47:05 271

原创 spark学习记录(十三、SparkStreaming)

一、SparkStreaming简介SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,...

2019-01-09 20:47:41 154

原创 spark学习记录(十二、Spark UDF&UDAF&开窗函数)

一、UDF&UDAF public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("local"); conf.setAppName("udf"); ...

2019-01-08 20:54:07 231

原创 spark学习记录(十一、Spark on Hive配置)

添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifactId> <version>2.4.0</vers...

2019-01-07 20:57:26 432

原创 spark学习记录(十、SparkSQL)

一、介绍SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。 能够在Scala中写SQL语句。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用。DataFrame也是一个分布式数据容器。与RDD类似,然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌...

2019-01-07 17:26:14 260

原创 spark学习记录(八、广播变量和累加器)

一、广播变量public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("local").setAppName("JavaExample"); JavaSpar...

2019-01-07 10:52:37 138

原创 spark学习记录(九、MasterHA和Spark shuffle)

一、zookeeper配置MasterHA1.1修改conf下的spark-env.sh :export SPARK_DAEMON_JAVA_OPTS="-Dspark-deploy-recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop1:2182,hadoop2:2181,hadoop3:2181 -Dspark.de...

2019-01-06 19:43:28 1275 1

原创 spark学习记录(七、二次排序和分组取TopN问题)

1.二次排序例题:将两列数字按第一列升序,如果第一列相同,则第二列升序排列数据文件:https://download.csdn.net/download/qq_33283652/10894807将数据封装成对象,对对象进行排序,然后取出valuepublic class SecondSortKey implements Serializable, Comparable<Se...

2019-01-04 10:54:05 527

原创 spark学习记录(六、基础知识)

1.术语解释2.SparkCore和SparkSQL知识点思维导图整理https://download.csdn.net/download/qq_33283652/10890863 3.RDD的宽窄依赖相同的key去同一个分区,但一个分区可以用不同的keyRDD窄依赖:父RDD与子 RDD partition之间的关系是一对一或多对一,例如rdd1与rdd2,rdd...

2019-01-03 13:45:11 134

原创 spark学习记录(五、Spark基于资源调度管理器的提交模式)

一、Standalone(Spark自带)1.1 Standalone-client模式 提交命令:./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.SparkPi /usr/local/spark-2.4.0-bin-hadoop2.7/examples/jars/spa...

2019-01-02 11:25:46 228

win10 下spark2.2.0+hadoop2.7.7+winutis 2

Windows上配置Python+Spark开发环境https://blog.csdn.net/qq_33283652/article/details/88790390

2019-03-26

win10 下spark2.2.0+hadoop2.7.7+winutis 1

win10下 python+spark开发环境配置教程https://blog.csdn.net/qq_33283652/article/details/88790390

2019-03-26

智慧交通实战项目数据库

智慧交通实战项目数据库

2019-01-14

智慧交通实战项目源码2 分卷2

智慧交通实战项目源码2,源码1地址:https://download.csdn.net/download/qq_33283652/10915990

2019-01-14

智慧交通实战项目源码1 分卷1

智慧交通实战项目源码1 ,源码2地址:https://download.csdn.net/download/qq_33283652/10916000

2019-01-14

车流量监控项目需求

车流量监控项目需求,车流量监控项目需求,车流量监控项目需求

2019-01-14

storm练习代码

storm基础练习代码

2019-01-14

中国移动storm练习项目hbase代码

中国移动storm练习项目hbase代码

2019-01-14

中国移动storm项目代码

storm练习项目代码:中国移动基站测试掉话率 storm练习项目代码:中国移动基站测试掉话率

2019-01-14

元数据例子

测试开窗函数的元数据测试开窗函数的元数据测试开窗函数的元数据

2019-01-08

scores.txt

分组取TopN练习数据。分组取TopN练习数据。分组取TopN练习数据。

2019-01-04

secondSort

二次排序练习数据。

2019-01-04

spark基础知识整理

spark基础知识思维导图整理,包括SparkCore和SparkSQL

2019-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除