自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 spark.sql.sources.parallelPartitionsDiscovery.threshold

streamingdumping运行多天后出现,每个batch多了一个Job(38/38的job),而且该任务的耗时比较长,会使任务积压,driver的日志如下:2019-01-29 11:55:01,631 INFO datasources.PartitioningAwareFileIndex: Listing leaf files and directories in parallel...

2019-01-29 19:39:49 1617

原创 spark使用自定义Hadoop的FileInputFormat读取hdfs上的数据

比如:一个300MB的文件,其中包含6条记录,每条记录300/6=50MB,该文件在hdfs上分了3个block,每个block为128MB,如上图,第3、6个记录跨block了。如下图所示。为了处理改文件,spark在每个数据节点上创建executor,这些executor负责读取自己的数据。Block 1 上的Executor 1 读取3条记录作为输入,其中本地读Line1、Lin...

2018-07-25 14:44:28 3961

转载 sparkStreaming 连接数据库 --设计模式

https://blog.csdn.net/dean_wanghw/article/details/53612945当我们遇到需要用sparkStreaming来保存处理的数据时,自然会想到用ojdbc.但是当我们真正去实现她的时候会发现,用spark Streaming来处理数据库连接是一件有点麻烦的事情,下面是针对spark-streaming_2.11来处理的。 destream.forea...

2018-06-05 19:18:41 1093

转载 akka actor

Scala Actor 简介Actor提供了并发程序中与传统的基于锁的结构不同的另一种选择。通过尽可能避免锁和共享状态,Actor使得我们能够更加容易设计出正确、没有死锁或争用状态的程序。Scala类库提供了一个Actor模型的简单实现,除此之外还有其他更高级的Actor类库,比如Akka(http://akka.io)。在 actor 并发模型中, actor 是独立的软件实体, 它们之间并不共...

2018-05-23 15:21:43 311

原创 Spark+RedisPool

一个实时项目需要用到Kafka+Spark streaming+Redis,在spark streaming中将计算结果实时存入redis,由于是分布式计算,创建redis pool的时候出现无法序列化的问题,借鉴了以下博文:http://shiyanjun.cn/archives/1097.html,解决了无法序列化的问题,但是方法一(即使用lazy懒加载的机制)中,redis的的配置(host

2018-02-25 10:59:39 3516 1

原创 HiveContext和SQLContext

使用SparkSQL时注意HiveContext和SQLContext的关系:见源码:class HiveContext(sc : org.apache.spark.SparkContext) extends org.apache.spark.sql.SQLContext with org.apache.spark.Logging {SqlContext: 应该是对应spark

2018-02-25 10:48:31 7103 2

转载 Spark RDD的缓存 rdd.cache() 和 rdd.persist()

RDD的缓存级别顺便看一下RDD都有哪些缓存级别,查看 StorageLevel 类的源码:object StorageLevel { val NONE = new StorageLevel(false, false, false, false) val DISK_ONLY = new StorageLevel(true, false, false, false) val

2017-12-21 18:20:08 855

原创 重启CDH的方法以及问题解决

重启CDH的方法如下:service cloudera-scm-server-db restartservice cloudera-scm-server restartservice cloudera-scm-agent restart(这个还需要在每个slave上执行)启动服务cloudera-scm-server时会遇到过一段时间自己挂掉,并

2017-11-27 19:12:07 13367 1

转载 Dubbo入门---搭建一个最简单的Demo框架

Dubbo背景和简介http://blog.csdn.net/noaman_wgs/article/details/70214612Dubbo开始于电商系统,因此在这里先从电商系统的演变讲起。单一应用框架(ORM) 当网站流量很小时,只需一个应用,将所有功能如下单支付等都部署在一起,以减少部署节点和成本。 缺点:单一的系统架构,使得在开发过程中,占用的资

2017-11-19 22:31:03 227

原创 jdbc连接hive的问题

利用hive jdbc连接hive出现如下问题: org.apache.hive.jdbc.HiveDriverorg.apache.hive.jdbc.HiveDriverhive_driver:org.apache.hive.jdbc.HiveDriverhive_url:jdbc:hive2://10.174.242.28:10000/defaultgetconnection

2017-11-08 18:14:35 2204

原创 spark连接es的问题java.lang.ClassNotFoundException:org.elasticsearch.client.transport.NoNodeAvailableExcep

跑spark任务:daily.out.20171012的日志中有如下错误:17/10/17 15:51:06 WARNspark.ThrowableSerializationWrapper: Task exception could not be deserializedjava.lang.ClassNotFoundException:org.elasticsearch.client.

2017-11-08 17:33:37 8196

原创 spark任务中报连接不到hbase的错误

17/10/16 20:51:22 INFOzookeeper.ClientCnxn: Opening socket connection to serverlocalhost/0:0:0:0:0:0:0:1:2181. Will not attempt to authenticate using SASL (unknownerror)17/10/16 20:51:22 WARNzooke

2017-11-08 17:26:47 4366

原创 spark中出现org.apache.htrace找不到的错误

在CDH中,开发的spark连接Hbase的时候,往往会出现找不到org.apache.htrace包。具体错误如下:? ? ? ERROR TableInputFormat: java.io.IOException:?? ? ? java.lang.reflect.InvocationTargetException? ? ?Caused by: java.lang.NoC

2017-11-08 15:55:44 8591

原创 mysql中插入中文出现乱码

如果往mysql中插入中文出现乱码:??,则找到mysql的安装目录下的my.ini。更改2个地方:[mysql]default-character-set=utf8 [mysqld] character-set-server=utf8 然后重启mysql服务

2017-10-17 20:29:47 348

转载 海量数据解决思路之BitMap

一、概述  本文将讲述Bit-Map算法的相关原理,Bit-Map算法的一些利用场景,例如BitMap解决海量数据寻找重复、判断个别元素是否在海量数据当中等问题.最后说说BitMap的特点已经在各个场景的使用性。二、Bit-Map算法先看看这样的一个场景:给一台普通PC,2G内存,要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数,给出一个整数,问如果

2017-09-27 11:06:29 353

原创 jps命令

ps命令是用来显示当前系统的进程情况,有哪些进程,及其 id。jps(Java Virtual Machine Process Status Tool,JAVA_HOME/bin/jps)也是一样,它的作用是显示当前系统的java进程情况,及其id号。我们可以通过它来查看我们到底启动了几个java进程(因为每一个java程序都会独占一个java虚拟机实例),和他们的进程号(为下面几个程序做准备

2017-09-18 10:07:49 1038

原创 you need to have ldconfig in your PATH env when enabling luajit

在安装阿里的OpenResty®(通过 Lua 扩展 NGINX 实现的可伸缩的 Web 平台)时出现如下错误:you need to have ldconfig in your PATH env when enabling luajit解决方法:编辑Makefile文件,将can_run("ldconfig")改成can_run("/sbin/ldconfig")

2017-08-31 18:26:37 2880

转载 Scala:fold,foldLeft和foldRight区别与联系

从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。   我将从一个简单的例子开始,用fold计算一系列整型的和。val numbers = List(5, 4, 8, 6, 2) numbers.fold(0) { (z, i) =>

2017-08-23 11:43:01 517

转载 Scala:fold,foldLeft和foldRight区别与联系

从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。  我将从一个简单的例子开始,用fold计算一系列整型的和。valnumbers =List(5,4,8,6,2)

2017-08-23 11:39:43 856

转载 Hbase中内置Filter详解

一、建表1、表名:“ORDER_TABLE”2、列簇:“user”,“order”,“item”3、表结构如下: 二、封装服务服务代码如下:[java] view plain copy@Override      public String get(String tableName, Filter 

2017-08-10 09:23:09 2179

原创 Failed deleting my ephemeral node

Failed deleting my ephemeral node2017-01-05 11:07:39,490 WARN zookeeper.RecoverableZooKeeper: Node /hyperbase1/rs/tw-node1217,60020,1483585655650 already deleted, retry=false2017-01-05 1

2017-08-09 09:25:04 1462

转载 MapReduce生成HFile文件,再使用BulkLoad导入HBase中(完全分布式运行)

声明: 若要转载, 请标明出处.前提: 在对于大量的数据导入到Hbase中, 如果一条一条进行插入, 则太耗时了, 所以可以先采用MapReduce生成HFile文件, 然后使用BulkLoad导入hbase中. 引用:一、这种方式有很多的优点:1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使

2017-07-25 15:06:07 1282 1

转载 ElasticSearch 5.0.0 安装部署常见错误或问题

http://www.dajiangtai.com/community/18136.do?origin=csdn-geek&dt=1214ElasticSearch 5.0.0 安装部署常见错误或问题问题一:[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to instal

2017-07-07 10:09:31 1063

转载 在scala中利用org.json4s 操作json

https://github.com/json4s/json4s/tree/v.3.2.0_scala2.10SON4S At this moment there are at least 6 json libraries for scala, not counting the java json libraries. All these libraries

2017-07-05 11:16:18 17615

原创 提交spark streming报错

运行spark streaming报错:LeaseExpiredException): No lease on /user/razor/ssc-chkpoint/cd/temp (inode 105931)解决方法:ps -ef | grep Count #发现有好几个流计算进程(Count为提交的任务名称),全部杀掉,重新spark-submit,ok

2017-06-08 11:05:21 516

转载 Spark Master、Worker、Driver、Executor工作流程详解

http://blog.csdn.net/zhumr/article/details/525185061、Spark的部署图:  在基于standalone的Spark集群,Cluster Manger就是Master。 Master负责分配资源,在集群启动时,Driver向Master申请资源,Worker负责监控自己节点的内存和CPU等状况,并向Master汇报。

2017-06-08 10:04:59 9375 3

转载 spark读取kafka数据 createStream和createDirectStream的区别

1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk],[consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者api,对于所有的receivers接收到的数据将会保存在Spark executors中,然后通过

2017-06-08 10:04:11 676

转载 Spark Yarn-cluster与Yarn-client

http://blog.csdn.net/BlockheadLS/article/details/533293230 首先注意的概念ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每一台slave机器的代理,执行应用程序,并监控应用程序的资源使用情况。

2017-05-19 19:41:40 351

原创 linux系统自带的crontab命令调度MR

crontab.sh(该文件放在/home/.........../job目录下) 内容如下: test.sh(该文件放在/home............/job目录下)中执行命令:crontab -u razor crontab.sh            (-u指定以razor用户跑命令,执行此命令前要确保test.sh  job_hourly.sh  job_daily

2017-05-19 14:53:32 436

转载 Mybatis拦截器介绍及分页插件

因项目需要对表格进行分页,前段采用bootstrap-paginator,后端采用MyBatis的拦截器实现分页sql查询,具体如下:原文  http://haohaoxuexi.iteye.com/blog/1851081Mybatis 拦截器介绍1.1 目录1.2 前言1.3 Interceptor接口1.4 注册拦截器1.5

2017-05-08 19:04:48 265

原创 java端发送数据给fafka不成功的问题

从网上找了一些producer和consumer的java例子,在producer中发送数据的时候就是进不去kafka,但是控制台并不报错,另外在kafka上直接用kafka-console-producer和kafka-console-consumer命令是有数据的,试了好长时间,最后在maven中把kafka的依赖从版本0.8.0改为0.8.2.0,就可以了,到现在我也没搞懂为啥?知道原因

2017-04-14 10:41:21 599 1

原创 CDH集群报一个DataNode未连接上的错误

之前有一次,启动CDH集群突然报slave03这个DataNode未连接上的错误,直接导致HBase等服务组件出现问题经过排查,一开始,将原来的hosts文件:192.168.1.15 archive.cloudera.com192.168.1.7 slave01192.168.1.11 slave02192.168.1.12 cc.co.com192.168.

2017-04-13 16:05:47 1979

原创 elasticsearch引用jar包与其他jar冲突解决办法

问题提出:官网blog:https://www.elastic.co/blog/to-shade-or-not-to-shade比如你的项目中引用的Joda 2.1,而elasticsearch 2.2.0引用的Joda 2.8,则在使用elasticsearch的时候以为会先找到Joda 2.1,导致elasticsearch用不起来,所以怎么解决呢1.新建一个maven项目进行

2017-04-10 16:42:16 3905

转载 图解正向代理、反向代理、透明代理

图解正向代理、反向代理、透明代理套用古龙武侠小说套路来说,代理服务技术是一门很古老的技术,是在互联网早期出现就使用的技术。一般实现代理技术的方式就是在服务器上安装代理服务软件,让其成为一个代理服务器,从而实现代理技术。常用的代理技术分为正向代理、反向代理和透明代理。本文就是针对这三种代理来讲解一些基本原理和具体的适用范围,便于大家更深入理解代理服务技术。一、正向代理(Forward Pro

2017-03-27 15:16:41 287

原创 mybatis resultType=java.util.Map 时注意返回null

利用mybatis 动态查询一条记录,而返回是一个map(resultType=”java.util.Map”,键是字段名,值是字段值),比如操作数据库是通过存储过程或者是直接传一个String sql="select * from emp where e_id=1"字符串来返回一个map。1、如果某一列的值为空。查询这条记录时就不显示这列了。《===map中无此对应的键2

2017-03-24 15:21:16 15136

原创 sqoop常用命令整理

1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username root -password 0000002、连接mysql并列出数据库中的表sqoop list-tables --connect jdbc:mysql://localhost:3306/test --us

2017-03-24 15:18:10 6173

转载 Oracle数据库导入导出命令总结

IMP 和EXP命令Oracle数据导入导出imp/exp就相当于oracle数据还原与备份。exp命令可以把数据从远程数据库服务器导出到本地的dmp文件,imp命令可以把dmp文件从本地导入到远处的数据库服务器中。 利用这个功能可以构建两个相同的数据库,一个用来测试,一个用来正式使用。    执行环境:可以在SQLPLUS.EXE或者DOS(命令行)中执行,DOS中可以执行时由于在ora

2017-03-19 11:38:33 473

转载 Flume-ng

Flume-ng的原理和使用原文  http://blog.javachen.com/2014/07/22/flume-ng.html主要是转载,但是leehbing也进行了一些整理,给网友献上1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flum

2017-03-19 11:20:19 301

转载 全面了解Nginx主要应用场景

作者:RayeWangwww.raye.wang/2017/02/24/quan-mian-liao-jie-nginxdao-di-neng-zuo-shi-yao/如有好文章投稿,请点击 → 这里了解详情前言本文只针对Nginx在不加载第三方模块的情况能处理哪些事情,由于第三方模块太多所以也介绍不完,当然本文本身也可能介绍的不完整,毕竟只是我个人使用过和了解

2017-03-14 09:46:25 337

转载 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

原文:www.linbingdong.comZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Goog

2017-03-14 09:16:29 405

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除