spark
文章平均质量分 91
小强签名设计
真正牛逼的生活是既可以朝九晚五又可以浪迹天涯。
展开
-
Dataset 的一些 Java api 操作
【代码】Dataset 的一些 Java api 操作。原创 2023-09-04 09:47:48 · 1170 阅读 · 0 评论 -
Hbase的bulkload流程与实践
通常MapReduce在写HBase时使用的是方式,在 reduce 中直接生成 put 对象写入HBase,该方式在大数据量写入时效率低下(HBase 会 block 写入,频繁进行 flush、split、compact 等大量 IO 操作),并对HBase节点的稳定性造成一定的影响(GC 时间过长,响应变慢,导致节点超时退出,并引起一系列连锁反应),而HBase支持bulk load的入库方式,它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接在HDFS中生成持久化的HFile。原创 2023-06-15 10:03:21 · 2938 阅读 · 0 评论 -
Spark Streaming实战对论坛网站动态行为pv,uv,注册人数,跳出率的多维度分析
论坛数据运行代码自动生成,该生成的数据会作为Producer的方式发送给Kafka,然后SparkStreaming程序会从Kafka中在线Pull到论坛或者网站的用户在线行为信息,进而进行多维度的在线分析数据格式如下:date:日期,格式为yyyy-MM-ddtimestamp:时间戳userID:用户IDpageID:页面IDchanelID:板块的IDaction原创 2017-07-06 17:41:43 · 6630 阅读 · 1 评论 -
Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表:create 'linecount','count'开启kafka集群并建立相应的topic:[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h原创 2017-08-02 15:23:58 · 3775 阅读 · 0 评论 -
安装spark-1.5.0-cdh5.5.2所踩过的坑
我一开始想安装spark-1.5.0-cdh5.5.2的standalone模式,于是乎(已安装有hadoop集群):[hadoop@h71 ~]$ tar -zxvf spark-1.5.0-cdh5.5.2.tar.gz[hadoop@h71 ~]$ vi spark-1.5.0-cdh5.5.2/conf/spark-env.shexport JAVA_HOME=/usr/jdk1.7.0_...原创 2017-09-11 17:04:23 · 2413 阅读 · 1 评论 -
SparkStreaming之基本数据源输入
本文大部分内容来自http://blog.csdn.net/legotime/article/details/51836036,其中部分内容做了添加和修改。环境:Redhat5.5 64位(我这里的Linux版本有点低,你可以再高一些)spark-1.6.3-bin-hadoop2.6scala-2.10.6jdk-8u91-linux-x64开发工具:scala-转载 2017-10-25 19:10:25 · 1721 阅读 · 0 评论 -
Sparkstreaming之实时数据流计算实例(Scala)
本文的列子来自http://blog.csdn.net/zfszhangyuan/article/details/52522974,部分内容做了相应的修改和添加首先我们要做一个日志生产器,方便本地模拟线上环境:直接上代码吧(原理是根据一个原始日志log,然后随机的从中挑选行添加到新生产的日志中,并且生产的数据量呈不断的增长态势)[hadoop@h71 hui]$ vi File原创 2017-10-27 17:42:12 · 4135 阅读 · 0 评论 -
Spark-1.3.1-bin-hadoop2.6安装及RDD基本操作
spark 安装模式:local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HAon yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负原创 2017-07-10 10:25:14 · 16222 阅读 · 1 评论 -
Spark streaming不同数据来源(socket套接字、hdfs目录)和存储位置(hdfs、本地)的java代码
spark 安装模式:local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HAon yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负原创 2017-05-24 17:33:48 · 3349 阅读 · 0 评论