自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 spark vs storm

对比点StormSpark Streaming实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善

2017-08-03 16:41:24 313

原创 sparksql dataframe

概述(Overview)Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。DataFramesDataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表,也可以理解为R/Python

2017-08-03 16:39:10 350

原创 sparksql and datasource

数据源(Data Source)Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Data Sources这部分首先描述了对Spark的数据源执行加载和保存的常用方法,然后对内置数据源进行深入介绍。一般Load/Sa

2017-08-03 16:37:42 346

原创 kafka+sparkstreaming wordcount

概要Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合,源码中的例子如何真正跑起来,文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说的越仔细越好。搭建Kafka集群

2017-08-03 16:36:35 261

原创 sparksql cachetable 及 uncachtable

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下:  执行该代码之后,文本文件会存储于本地路径:/tmp/datas,它包含1000行测试数据,

2017-08-03 16:34:16 586

原创 spark streaming + kafka

我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。(如有任何纰漏欢

2017-08-03 16:31:34 559

原创 spark 操作hbase及mysql

在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark操作hbase和mysql的内容进行总结,并且对自己踩到的一些坑进行记录。Spark Streaming持久化

2017-08-03 16:29:14 332

原创 spark1.6使用介绍

快速入门(Quick Start)本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用,然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读Spark Programming Guide。在按照本文进行操作之前,请确保已安装Spark。本文中的所有操作没有使用HDFS,所以您可以安装任何版本的Hadoop。Spar

2017-08-03 16:26:33 300

原创 JUnit单元测试

JUnit单元测试--IntelliJ IDEA单元测试的基本使用一、环境配置     使用idea IDE 进行单元测试,首先需要安装JUnit 插件。          1.安装JUnit插件步骤              File-->settings-->Plguins-->Browse repositories-->输入JUni

2017-08-03 16:18:31 186

原创 IDEA的常见设置

1.启动如果操作系统是64位的话,可以运行64位的idea;运行方法为:进入idea安装目录的bin目录下,找到idea64.exe双击运行即可;2.JVM参数进入idea安装目录的bin目录下,找到idea.exe.vmoptions(64位的,编辑idea64.exe.vmoptions)文件:-Xms256m-Xmx1024m-XX:MaxPe

2017-08-03 10:32:59 230

原创 cdh删除重装

=============================================删了重装============================================================-----------------------------------------------------------1.在cm界面(admin)下,关闭集群所有服务

2017-08-02 14:59:24 5134

原创 solr的安装

一、更新solr的配置文件schema.xml 添加:                                                                               修改使用分词的字段类型:    二、替换到/s

2017-08-02 14:57:52 328

原创 hive操作-建表

Hive 建表:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name   [(col_name data_type [COMMENT col_comment], ...)]   [COMMENT table_comment]   [PARTITIONED BY (col_name data_type [COMMENT col_co

2017-08-02 14:16:52 311 1

原创 spark wordcount

wordcount

2017-08-02 14:10:45 256

原创 spark rdd操作API

RDD的基础操作API介绍:操作类型函数名作用转化操作map()参数是函数,函数应用于RDD每一个元素,返回值是新的RDDflatMap()参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDDfilter()参

2017-08-02 14:07:07 375

原创 zookeeper的常用命令

zkcli脚本命令介绍zkcli    连接默认zookeeper服务器zkcli -server ip:port    连接指定的zookeeper服务器create -s -e path data [acl]    创建节点,-s表示顺序,-e表示临时,默认是持久节点,acl缺省表示不做任何权限限制ls path [watch]    显示path下

2017-08-02 13:57:41 212

原创 spark-cluster及yarn-client说明

spark on yarn 的两种模式1)yarn-cluster:我们一般用于生产使用2)yarn-client:适用于交互、调试,能够立即看到app的输出Yarn-cluster和yarn-client的区别在于appMaster:yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceMa

2017-08-02 13:49:53 287

原创 spark 一些算子的使用及优化

1、MapPartitionsspark中,最基本的原则,就是每个task处理一个RDD的partition。MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,funct

2017-08-02 13:40:44 1940

原创 hive 行转列 列转行操作

一、行转列的使用1、问题hive如何将a       b       1a       b       2a       b       3c       d       4c       d       5c       d       6变为:a       b       1,2,3c  

2017-08-02 13:36:27 3131

原创 crontab 定时写法整理

目前hadoop hive 及spark脚本需要用定时脚本,任务调度使用的是crontab的任务调度以下是整理的命令格式:基本格式 : *  *  *  *  *  command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识

2017-08-01 13:35:26 63468

原创 CDH5.9 hive查询表注释为乱码解决方法

hive 元数据库用的是MySQL创建表后,用desc 在hive中查看表信息,注释显示乱码。解决方案如下:1 进入mysql ,执行show create database hive查看hive 数据库当前编码,如果是utf8 则执行下面sqlalter database hive default character set latin1

2017-08-01 11:33:59 598

原创 spark操作关系型数据库报错处理

spark 1.4版本:sqlContext.read.jdbc(url,"(select * from student2 ) tables ",props)过程中报错:16/03/31 09:58:26 ERROR yarn.ApplicationMaster: User class threw exception: java.sql.SQLException

2017-08-01 11:17:41 445

原创 impala的操作

1、-h 外能帮助格式:[root@hadoop-worer1-xiaoyacrm ~]# impala-shell -hUsage: impala_shell.py [options]Options:  -h, --help            show this help message and exit  -i IMPALAD, --impa

2017-08-01 11:06:31 630

原创 Hbase的常见操作

常用的hbase操作命令,有参考网上文章本人环境 hbase Version 1.2.0-cdh5.9.0进入hbase shell console$HBASE_HOME/bin/hbase shellhbase(main)>whoami表的管理1)查看有哪些表h

2017-08-01 11:01:02 348

原创 cdh spark history无法查看历史数据

问题:新装cdh5.9,使用新建的hadoop用户运行spark没有问题,但是查看spark history的时候发现无法查看但是发现文件是存在的:如图可见:发现系统默认是用spark用户运行的,使用hadoop fs -chown -r spark:spark  后历史文件可以查看,但是hadoop用户新执行的任务都是hadoop:hadoop仍然不可以查看。故怀疑是执行

2017-06-28 09:54:33 2715

原创 CDH5.9安装

注:本安装说明是本人综合网上的安装文档参考得到的,可能因环境的不同,或者其他原因坑比较多。参考文档http://www.linuxidc.com/Linux/2017-01/139518.htmhttp://blog.csdn.net/u010022051/article/details/512057651、需要准备的文件cloudera

2017-06-23 14:00:49 1111

原创 记录在cdh使用中遇到的坑,cdh Reports Manager

以下为报错内容及截图: 1 个验证错误。Service mgmt has 0 Reports Manager. Cloudera Management Service requires at least 1 Reports Manager. 问题发生:我在修改cdh配置文件的时候,输入了特殊字符 造成验证失败,后面一直验证不过去。问题原因:是安装cdh5.9的时候没有安

2017-06-13 16:34:44 4265

原创 hive和impala操作parquet文件timestamp带来的困扰

前言:准备使用hive作数据仓库,因历史遗留问题,原先遗留的数据处理都是impala处理的,数据文件是parquet文件,因本身集群资源少,而处理的文件很大,准备使用hive离线分析将小文件推送到db或者impala进行展示操作。准备:搭建cdh5.9,将原有的数据从一个集群迁移到现有的集群。对数据按照天进行动态分区,分区数据仍然使用parquet格式。问题:因分区字段为timestamp

2017-05-24 17:40:16 3457

原创 spark在eclipse中遇到的问题及处理措施_标记下

环境:cdh5.9  spark1.6本地开发环境:下载了最新的ide:scala-SDK-4.6.0-vfinal-2.12-win32.win32.x86_64 开始没有使用maven,而是使用eclipse直接加jar包的方式。下面截图报错:More than one scala library found in the build path (G:/scala-SD

2017-05-23 16:19:44 393

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除