bsf5521-CSDN博客

原创 DATAX 使用总结含示例,全部是干货

查询条件使用： "query": "{ \"col\": 'xx' }",datax 启动的时候调用 -Duser.timezone=xx时区。datax 同步数据mongo时间格式数据与同步后时区存在相差比较。工作中使用datax同步数据比较多，直接上示例。修改时区："timeZone": "GMT",同步mongo 到 doris。或者直接修改datax配置的。

2025-04-23 09:13:12 476

原创 SELECTDB doris Variant 使用困扰

使用缺陷显现场景：我们物联IOT场景，接入厂商、设备大类多大上百种，每条设备字段数据几百上千字段，字段会非常多，综合字段数几万多个。当时想使用variant能够节约表大小，提高查询效率，后来发现使用后没多久，数据表写入巨慢，后发现variant 不适用与列数不固定，且非常松散的json。使用doris的时候发现variant是个好东西，赶紧使用了一下，但是实时上在一些场景下存在很多问题。Variant 数据类型：灵活应对半结构化数据，JSON 查询提速超 8 倍，存储空间节省 65%。

2025-04-23 08:32:43 324

原创 spark vs storm

对比点StormSpark Streaming实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善

2017-08-03 16:41:24 390

原创 sparksql dataframe

概述（Overview）Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。DataFramesDataFrame是一个分布式的数据集合，该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表，也可以理解为R/Python

2017-08-03 16:39:10 424

原创 sparksql and datasource

数据源（Data Source）Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。Data Sources这部分首先描述了对Spark的数据源执行加载和保存的常用方法，然后对内置数据源进行深入介绍。一般Load/Sa

2017-08-03 16:37:42 401

原创 kafka+sparkstreaming wordcount

概要Spark应用开发实践性非常强，很多时候可能都会将时间花费在环境的搭建和运行上，如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合，源码中的例子如何真正跑起来，文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount，这个需要涉及Kafka集群的搭建，还是说的越仔细越好。搭建Kafka集群

2017-08-03 16:36:35 332

原创 sparksql cachetable 及 uncachtable

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。假设我们有一个文本文件“datas”，每一行有三列数据，以“\t”分隔，模拟生成文件的代码如下：执行该代码之后，文本文件会存储于本地路径：/tmp/datas，它包含1000行测试数据，

2017-08-03 16:34:16 639

原创 spark streaming + kafka

我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。（如有任何纰漏欢

2017-08-03 16:31:34 644

原创 spark 操作hbase及mysql

在使用Spark Streaming的过程中对于计算产生结果的进行持久化时，我们往往需要操作数据库，去统计或者改变一些值。最近一个实时消费者处理任务，在使用spark streaming进行实时的数据流处理时，我需要将计算好的数据更新到hbase和mysql中，所以本文对spark操作hbase和mysql的内容进行总结，并且对自己踩到的一些坑进行记录。Spark Streaming持久化

2017-08-03 16:29:14 396

原创 spark1.6使用介绍

快速入门（Quick Start）本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用，然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读Spark Programming Guide。在按照本文进行操作之前，请确保已安装Spark。本文中的所有操作没有使用HDFS，所以您可以安装任何版本的Hadoop。Spar

2017-08-03 16:26:33 358

原创 JUnit单元测试

JUnit单元测试--IntelliJ IDEA单元测试的基本使用一、环境配置使用idea IDE 进行单元测试，首先需要安装JUnit 插件。 1.安装JUnit插件步骤 File-->settings-->Plguins-->Browse repositories-->输入JUni

2017-08-03 16:18:31 235

原创 IDEA的常见设置

1.启动如果操作系统是64位的话，可以运行64位的idea；运行方法为：进入idea安装目录的bin目录下，找到idea64.exe双击运行即可；2.JVM参数进入idea安装目录的bin目录下，找到idea.exe.vmoptions(64位的，编辑idea64.exe.vmoptions)文件:-Xms256m-Xmx1024m-XX:MaxPe

2017-08-03 10:32:59 278

原创 cdh删除重装

=============================================删了重装============================================================-----------------------------------------------------------1.在cm界面(admin)下,关闭集群所有服务

2017-08-02 14:59:24 5603

原创 solr的安装

一、更新solr的配置文件schema.xml 添加：修改使用分词的字段类型：二、替换到/s

2017-08-02 14:57:52 383

原创 hive操作-建表

Hive 建表：CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_co

2017-08-02 14:16:52 402

原创 spark wordcount

wordcount

2017-08-02 14:10:45 307

原创 spark rdd操作API

RDD的基础操作API介绍：操作类型函数名作用转化操作map()参数是函数，函数应用于RDD每一个元素，返回值是新的RDDflatMap()参数是函数，函数应用于RDD每一个元素，将元素数据进行拆分，变成迭代器，返回值是新的RDDfilter()参

2017-08-02 14:07:07 447

原创 zookeeper的常用命令

zkcli脚本命令介绍zkcli 连接默认zookeeper服务器zkcli -server ip:port 连接指定的zookeeper服务器create -s -e path data [acl] 创建节点，-s表示顺序，-e表示临时，默认是持久节点，acl缺省表示不做任何权限限制ls path [watch] 显示path下

2017-08-02 13:57:41 256

原创 spark-cluster及yarn-client说明

spark on yarn 的两种模式1）yarn-cluster：我们一般用于生产使用2）yarn-client：适用于交互、调试，能够立即看到app的输出Yarn-cluster和yarn-client的区别在于appMaster：yarn appMaster，每个yarn app实例有一个appMaster进程，是为app启动的第一个container；负责从ResourceMa

2017-08-02 13:49:53 353

原创 spark 一些算子的使用及优化

1、MapPartitionsspark中，最基本的原则，就是每个task处理一个RDD的partition。MapPartitions操作的优点：如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，funct

2017-08-02 13:40:44 2036

原创 hive 行转列列转行操作

一、行转列的使用１、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为：a b 1,2,3c

2017-08-02 13:36:27 3204

原创 crontab 定时写法整理

目前hadoop hive 及spark脚本需要用定时脚本，任务调度使用的是crontab的任务调度以下是整理的命令格式：基本格式 : *　　*　　*　　*　　*　　command 分　时　日　月　周　命令第1列表示分钟1～59 每分钟用*或者 */1表示第2列表示小时1～23（0表示0点）第3列表示日期1～31 第4列表示月份1～12 第5列标识

2017-08-01 13:35:26 64710

原创 CDH5.9 hive查询表注释为乱码解决方法

hive 元数据库用的是MySQL创建表后，用desc 在hive中查看表信息，注释显示乱码。解决方案如下：1 进入mysql ，执行show create database hive查看hive 数据库当前编码，如果是utf8 则执行下面sqlalter database hive default character set latin1

2017-08-01 11:33:59 658

原创 spark操作关系型数据库报错处理

spark 1.4版本：sqlContext.read.jdbc(url,"(select * from student2 ) tables ",props)过程中报错：16/03/31 09:58:26 ERROR yarn.ApplicationMaster: User class threw exception: java.sql.SQLException

2017-08-01 11:17:41 528

原创 impala的操作

1、-h 外能帮助格式：[root@hadoop-worer1-xiaoyacrm ~]# impala-shell -hUsage: impala_shell.py [options]Options: -h, --help show this help message and exit -i IMPALAD, --impa

2017-08-01 11:06:31 787

原创 Hbase的常见操作

常用的hbase操作命令，有参考网上文章本人环境 hbase Version 1.2.0-cdh5.9.0进入hbase shell console$HBASE_HOME/bin/hbase shellhbase(main)>whoami表的管理1）查看有哪些表h

2017-08-01 11:01:02 395

原创 cdh spark history无法查看历史数据

问题：新装cdh5.9，使用新建的hadoop用户运行spark没有问题，但是查看spark history的时候发现无法查看但是发现文件是存在的：如图可见：发现系统默认是用spark用户运行的，使用hadoop fs -chown -r spark:spark 后历史文件可以查看，但是hadoop用户新执行的任务都是hadoop:hadoop仍然不可以查看。故怀疑是执行

2017-06-28 09:54:33 2868

原创 CDH5.9安装

注：本安装说明是本人综合网上的安装文档参考得到的，可能因环境的不同，或者其他原因坑比较多。参考文档http://www.linuxidc.com/Linux/2017-01/139518.htmhttp://blog.csdn.net/u010022051/article/details/512057651、需要准备的文件cloudera

2017-06-23 14:00:49 1184

原创记录在cdh使用中遇到的坑，cdh Reports Manager

以下为报错内容及截图： 1 个验证错误。Service mgmt has 0 Reports Manager. Cloudera Management Service requires at least 1 Reports Manager. 问题发生：我在修改cdh配置文件的时候，输入了特殊字符造成验证失败，后面一直验证不过去。问题原因：是安装cdh5.9的时候没有安

2017-06-13 16:34:44 4767

原创 hive和impala操作parquet文件timestamp带来的困扰

前言：准备使用hive作数据仓库，因历史遗留问题，原先遗留的数据处理都是impala处理的，数据文件是parquet文件，因本身集群资源少，而处理的文件很大，准备使用hive离线分析将小文件推送到db或者impala进行展示操作。准备：搭建cdh5.9，将原有的数据从一个集群迁移到现有的集群。对数据按照天进行动态分区，分区数据仍然使用parquet格式。问题：因分区字段为timestamp

2017-05-24 17:40:16 3645

原创 spark在eclipse中遇到的问题及处理措施_标记下

环境：cdh5.9 spark1.6本地开发环境：下载了最新的ide：scala-SDK-4.6.0-vfinal-2.12-win32.win32.x86_64 开始没有使用maven，而是使用eclipse直接加jar包的方式。下面截图报错：More than one scala library found in the build path (G:/scala-SD

2017-05-23 16:19:44 474

bsf5521的博客