- 博客(24)
- 收藏
- 关注
原创 spark vs storm
对比点StormSpark Streaming实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善
2017-08-03 16:41:24 326
原创 sparksql dataframe
概述(Overview)Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。DataFramesDataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表,也可以理解为R/Python
2017-08-03 16:39:10 365
原创 sparksql and datasource
数据源(Data Source)Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Data Sources这部分首先描述了对Spark的数据源执行加载和保存的常用方法,然后对内置数据源进行深入介绍。一般Load/Sa
2017-08-03 16:37:42 358
原创 kafka+sparkstreaming wordcount
概要Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合,源码中的例子如何真正跑起来,文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说的越仔细越好。搭建Kafka集群
2017-08-03 16:36:35 272
原创 sparksql cachetable 及 uncachtable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下: 执行该代码之后,文本文件会存储于本地路径:/tmp/datas,它包含1000行测试数据,
2017-08-03 16:34:16 597
原创 spark streaming + kafka
我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。(如有任何纰漏欢
2017-08-03 16:31:34 576
原创 spark 操作hbase及mysql
在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark操作hbase和mysql的内容进行总结,并且对自己踩到的一些坑进行记录。Spark Streaming持久化
2017-08-03 16:29:14 348
原创 spark1.6使用介绍
快速入门(Quick Start)本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用,然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读Spark Programming Guide。在按照本文进行操作之前,请确保已安装Spark。本文中的所有操作没有使用HDFS,所以您可以安装任何版本的Hadoop。Spar
2017-08-03 16:26:33 315
原创 JUnit单元测试
JUnit单元测试--IntelliJ IDEA单元测试的基本使用一、环境配置 使用idea IDE 进行单元测试,首先需要安装JUnit 插件。 1.安装JUnit插件步骤 File-->settings-->Plguins-->Browse repositories-->输入JUni
2017-08-03 16:18:31 197
原创 IDEA的常见设置
1.启动如果操作系统是64位的话,可以运行64位的idea;运行方法为:进入idea安装目录的bin目录下,找到idea64.exe双击运行即可;2.JVM参数进入idea安装目录的bin目录下,找到idea.exe.vmoptions(64位的,编辑idea64.exe.vmoptions)文件:-Xms256m-Xmx1024m-XX:MaxPe
2017-08-03 10:32:59 239
原创 cdh删除重装
=============================================删了重装============================================================-----------------------------------------------------------1.在cm界面(admin)下,关闭集群所有服务
2017-08-02 14:59:24 5169
原创 hive操作-建表
Hive 建表:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_co
2017-08-02 14:16:52 337 1
原创 spark rdd操作API
RDD的基础操作API介绍:操作类型函数名作用转化操作map()参数是函数,函数应用于RDD每一个元素,返回值是新的RDDflatMap()参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDDfilter()参
2017-08-02 14:07:07 390
原创 zookeeper的常用命令
zkcli脚本命令介绍zkcli 连接默认zookeeper服务器zkcli -server ip:port 连接指定的zookeeper服务器create -s -e path data [acl] 创建节点,-s表示顺序,-e表示临时,默认是持久节点,acl缺省表示不做任何权限限制ls path [watch] 显示path下
2017-08-02 13:57:41 226
原创 spark-cluster及yarn-client说明
spark on yarn 的两种模式1)yarn-cluster:我们一般用于生产使用2)yarn-client:适用于交互、调试,能够立即看到app的输出Yarn-cluster和yarn-client的区别在于appMaster:yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceMa
2017-08-02 13:49:53 299
原创 spark 一些算子的使用及优化
1、MapPartitionsspark中,最基本的原则,就是每个task处理一个RDD的partition。MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,funct
2017-08-02 13:40:44 1964
原创 hive 行转列 列转行操作
一、行转列的使用1、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c
2017-08-02 13:36:27 3147
原创 crontab 定时写法整理
目前hadoop hive 及spark脚本需要用定时脚本,任务调度使用的是crontab的任务调度以下是整理的命令格式:基本格式 : * * * * * command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识
2017-08-01 13:35:26 63635
原创 CDH5.9 hive查询表注释为乱码解决方法
hive 元数据库用的是MySQL创建表后,用desc 在hive中查看表信息,注释显示乱码。解决方案如下:1 进入mysql ,执行show create database hive查看hive 数据库当前编码,如果是utf8 则执行下面sqlalter database hive default character set latin1
2017-08-01 11:33:59 609
原创 spark操作关系型数据库报错处理
spark 1.4版本:sqlContext.read.jdbc(url,"(select * from student2 ) tables ",props)过程中报错:16/03/31 09:58:26 ERROR yarn.ApplicationMaster: User class threw exception: java.sql.SQLException
2017-08-01 11:17:41 479
原创 impala的操作
1、-h 外能帮助格式:[root@hadoop-worer1-xiaoyacrm ~]# impala-shell -hUsage: impala_shell.py [options]Options: -h, --help show this help message and exit -i IMPALAD, --impa
2017-08-01 11:06:31 720
原创 Hbase的常见操作
常用的hbase操作命令,有参考网上文章本人环境 hbase Version 1.2.0-cdh5.9.0进入hbase shell console$HBASE_HOME/bin/hbase shellhbase(main)>whoami表的管理1)查看有哪些表h
2017-08-01 11:01:02 359
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人