2017年08月_bsf5521

原创 spark vs storm

对比点StormSpark Streaming实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善

2017-08-03 16:41:24 326

原创 sparksql dataframe

概述（Overview）Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。DataFramesDataFrame是一个分布式的数据集合，该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表，也可以理解为R/Python

2017-08-03 16:39:10 365

原创 sparksql and datasource

数据源（Data Source）Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。Data Sources这部分首先描述了对Spark的数据源执行加载和保存的常用方法，然后对内置数据源进行深入介绍。一般Load/Sa

2017-08-03 16:37:42 358

原创 kafka+sparkstreaming wordcount

概要Spark应用开发实践性非常强，很多时候可能都会将时间花费在环境的搭建和运行上，如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合，源码中的例子如何真正跑起来，文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount，这个需要涉及Kafka集群的搭建，还是说的越仔细越好。搭建Kafka集群

2017-08-03 16:36:35 272

原创 sparksql cachetable 及 uncachtable

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。假设我们有一个文本文件“datas”，每一行有三列数据，以“\t”分隔，模拟生成文件的代码如下：执行该代码之后，文本文件会存储于本地路径：/tmp/datas，它包含1000行测试数据，

2017-08-03 16:34:16 597

我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。（如有任何纰漏欢

2017-08-03 16:31:34 576

原创 spark 操作hbase及mysql

在使用Spark Streaming的过程中对于计算产生结果的进行持久化时，我们往往需要操作数据库，去统计或者改变一些值。最近一个实时消费者处理任务，在使用spark streaming进行实时的数据流处理时，我需要将计算好的数据更新到hbase和mysql中，所以本文对spark操作hbase和mysql的内容进行总结，并且对自己踩到的一些坑进行记录。Spark Streaming持久化

2017-08-03 16:29:14 348

原创 spark1.6使用介绍

快速入门（Quick Start）本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用，然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读Spark Programming Guide。在按照本文进行操作之前，请确保已安装Spark。本文中的所有操作没有使用HDFS，所以您可以安装任何版本的Hadoop。Spar

2017-08-03 16:26:33 315

原创 JUnit单元测试

JUnit单元测试--IntelliJ IDEA单元测试的基本使用一、环境配置使用idea IDE 进行单元测试，首先需要安装JUnit 插件。 1.安装JUnit插件步骤 File-->settings-->Plguins-->Browse repositories-->输入JUni

2017-08-03 16:18:31 197

原创 IDEA的常见设置

1.启动如果操作系统是64位的话，可以运行64位的idea；运行方法为：进入idea安装目录的bin目录下，找到idea64.exe双击运行即可；2.JVM参数进入idea安装目录的bin目录下，找到idea.exe.vmoptions(64位的，编辑idea64.exe.vmoptions)文件:-Xms256m-Xmx1024m-XX:MaxPe

2017-08-03 10:32:59 239

原创 cdh删除重装

=============================================删了重装============================================================-----------------------------------------------------------1.在cm界面(admin)下,关闭集群所有服务

2017-08-02 14:59:24 5169

原创 solr的安装

一、更新solr的配置文件schema.xml 添加：修改使用分词的字段类型：二、替换到/s

2017-08-02 14:57:52 342

原创 hive操作-建表

Hive 建表：CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_co

2017-08-02 14:16:52 337 1

原创 spark wordcount

wordcount

2017-08-02 14:10:45 266

原创 spark rdd操作API

RDD的基础操作API介绍：操作类型函数名作用转化操作map()参数是函数，函数应用于RDD每一个元素，返回值是新的RDDflatMap()参数是函数，函数应用于RDD每一个元素，将元素数据进行拆分，变成迭代器，返回值是新的RDDfilter()参

2017-08-02 14:07:07 390

原创 zookeeper的常用命令

zkcli脚本命令介绍zkcli 连接默认zookeeper服务器zkcli -server ip:port 连接指定的zookeeper服务器create -s -e path data [acl] 创建节点，-s表示顺序，-e表示临时，默认是持久节点，acl缺省表示不做任何权限限制ls path [watch] 显示path下

2017-08-02 13:57:41 226

原创 spark-cluster及yarn-client说明

spark on yarn 的两种模式1）yarn-cluster：我们一般用于生产使用2）yarn-client：适用于交互、调试，能够立即看到app的输出Yarn-cluster和yarn-client的区别在于appMaster：yarn appMaster，每个yarn app实例有一个appMaster进程，是为app启动的第一个container；负责从ResourceMa

2017-08-02 13:49:53 299

原创 spark 一些算子的使用及优化

1、MapPartitionsspark中，最基本的原则，就是每个task处理一个RDD的partition。MapPartitions操作的优点：如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，funct

2017-08-02 13:40:44 1964

原创 hive 行转列列转行操作

一、行转列的使用１、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为：a b 1,2,3c

2017-08-02 13:36:27 3147

原创 crontab 定时写法整理

目前hadoop hive 及spark脚本需要用定时脚本，任务调度使用的是crontab的任务调度以下是整理的命令格式：基本格式 : *　　*　　*　　*　　*　　command 分　时　日　月　周　命令第1列表示分钟1～59 每分钟用*或者 */1表示第2列表示小时1～23（0表示0点）第3列表示日期1～31 第4列表示月份1～12 第5列标识

2017-08-01 13:35:26 63635

原创 CDH5.9 hive查询表注释为乱码解决方法

hive 元数据库用的是MySQL创建表后，用desc 在hive中查看表信息，注释显示乱码。解决方案如下：1 进入mysql ，执行show create database hive查看hive 数据库当前编码，如果是utf8 则执行下面sqlalter database hive default character set latin1

2017-08-01 11:33:59 609

原创 spark操作关系型数据库报错处理

spark 1.4版本：sqlContext.read.jdbc(url,"(select * from student2 ) tables ",props)过程中报错：16/03/31 09:58:26 ERROR yarn.ApplicationMaster: User class threw exception: java.sql.SQLException

2017-08-01 11:17:41 479

原创 impala的操作

1、-h 外能帮助格式：[root@hadoop-worer1-xiaoyacrm ~]# impala-shell -hUsage: impala_shell.py [options]Options: -h, --help show this help message and exit -i IMPALAD, --impa

2017-08-01 11:06:31 720

原创 Hbase的常见操作

常用的hbase操作命令，有参考网上文章本人环境 hbase Version 1.2.0-cdh5.9.0进入hbase shell console$HBASE_HOME/bin/hbase shellhbase(main)>whoami表的管理1）查看有哪些表h

2017-08-01 11:01:02 359

bsf5521的博客