leebhing-CSDN博客

原创 spark.sql.sources.parallelPartitionsDiscovery.threshold

streamingdumping运行多天后出现，每个batch多了一个Job（38/38的job），而且该任务的耗时比较长，会使任务积压，driver的日志如下：2019-01-29 11:55:01,631 INFO datasources.PartitioningAwareFileIndex: Listing leaf files and directories in parallel...

2019-01-29 19:39:49 1757

原创 spark使用自定义Hadoop的FileInputFormat读取hdfs上的数据

比如：一个300MB的文件，其中包含6条记录，每条记录300/6=50MB，该文件在hdfs上分了3个block，每个block为128MB，如上图，第3、6个记录跨block了。如下图所示。为了处理改文件，spark在每个数据节点上创建executor，这些executor负责读取自己的数据。Block 1 上的Executor 1 读取3条记录作为输入，其中本地读Line1、Lin...

2018-07-25 14:44:28 4071

转载 sparkStreaming 连接数据库 --设计模式

https://blog.csdn.net/dean_wanghw/article/details/53612945当我们遇到需要用sparkStreaming来保存处理的数据时，自然会想到用ojdbc.但是当我们真正去实现她的时候会发现，用spark Streaming来处理数据库连接是一件有点麻烦的事情，下面是针对spark-streaming_2.11来处理的。 destream.forea...

2018-06-05 19:18:41 1172

转载 akka actor

Scala Actor 简介Actor提供了并发程序中与传统的基于锁的结构不同的另一种选择。通过尽可能避免锁和共享状态，Actor使得我们能够更加容易设计出正确、没有死锁或争用状态的程序。Scala类库提供了一个Actor模型的简单实现，除此之外还有其他更高级的Actor类库，比如Akka(http://akka.io)。在 actor 并发模型中， actor 是独立的软件实体，它们之间并不共...

2018-05-23 15:21:43 391

原创 Spark+RedisPool

一个实时项目需要用到Kafka+Spark streaming+Redis，在spark streaming中将计算结果实时存入redis，由于是分布式计算，创建redis pool的时候出现无法序列化的问题，借鉴了以下博文：http://shiyanjun.cn/archives/1097.html，解决了无法序列化的问题，但是方法一(即使用lazy懒加载的机制)中，redis的的配置（host

2018-02-25 10:59:39 3587

原创 HiveContext和SQLContext

使用SparkSQL时注意HiveContext和SQLContext的关系：见源码：class HiveContext(sc : org.apache.spark.SparkContext) extends org.apache.spark.sql.SQLContext with org.apache.spark.Logging {SqlContext: 应该是对应spark

2018-02-25 10:48:31 7181 1

转载 Spark RDD的缓存 rdd.cache() 和 rdd.persist()

RDD的缓存级别顺便看一下RDD都有哪些缓存级别，查看 StorageLevel 类的源码：object StorageLevel { val NONE = new StorageLevel(false, false, false, false) val DISK_ONLY = new StorageLevel(true, false, false, false) val

2017-12-21 18:20:08 905

原创重启CDH的方法以及问题解决

重启CDH的方法如下：service cloudera-scm-server-db restartservice cloudera-scm-server restartservice cloudera-scm-agent restart（这个还需要在每个slave上执行）启动服务cloudera-scm-server时会遇到过一段时间自己挂掉，并

2017-11-27 19:12:07 13740 1

转载 Dubbo入门---搭建一个最简单的Demo框架

Dubbo背景和简介http://blog.csdn.net/noaman_wgs/article/details/70214612Dubbo开始于电商系统，因此在这里先从电商系统的演变讲起。单一应用框架(ORM) 当网站流量很小时，只需一个应用，将所有功能如下单支付等都部署在一起，以减少部署节点和成本。缺点：单一的系统架构，使得在开发过程中，占用的资

2017-11-19 22:31:03 278

原创 jdbc连接hive的问题

利用hive jdbc连接hive出现如下问题： org.apache.hive.jdbc.HiveDriverorg.apache.hive.jdbc.HiveDriverhive_driver:org.apache.hive.jdbc.HiveDriverhive_url:jdbc:hive2://10.174.242.28:10000/defaultgetconnection

2017-11-08 18:14:35 2469

原创 spark连接es的问题java.lang.ClassNotFoundException:org.elasticsearch.client.transport.NoNodeAvailableExcep

跑spark任务：daily.out.20171012的日志中有如下错误：17/10/17 15:51:06 WARNspark.ThrowableSerializationWrapper: Task exception could not be deserializedjava.lang.ClassNotFoundException:org.elasticsearch.client.

2017-11-08 17:33:37 8302

原创 spark任务中报连接不到hbase的错误

17/10/16 20:51:22 INFOzookeeper.ClientCnxn: Opening socket connection to serverlocalhost/0:0:0:0:0:0:0:1:2181. Will not attempt to authenticate using SASL (unknownerror)17/10/16 20:51:22 WARNzooke

2017-11-08 17:26:47 4480

原创 spark中出现org.apache.htrace找不到的错误

在CDH中，开发的spark连接Hbase的时候，往往会出现找不到org.apache.htrace包。具体错误如下：? ? ? ERROR TableInputFormat: java.io.IOException:?? ? ? java.lang.reflect.InvocationTargetException? ? ?Caused by: java.lang.NoC

2017-11-08 15:55:44 8930

原创 mysql中插入中文出现乱码

如果往mysql中插入中文出现乱码：??，则找到mysql的安装目录下的my.ini。更改2个地方：[mysql]default-character-set=utf8 [mysqld] character-set-server=utf8 然后重启mysql服务

2017-10-17 20:29:47 392

转载海量数据解决思路之BitMap

一、概述本文将讲述Bit-Map算法的相关原理,Bit-Map算法的一些利用场景，例如BitMap解决海量数据寻找重复、判断个别元素是否在海量数据当中等问题.最后说说BitMap的特点已经在各个场景的使用性。二、Bit-Map算法先看看这样的一个场景：给一台普通PC，2G内存，要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数，给出一个整数，问如果

2017-09-27 11:06:29 406

原创 jps命令

ps命令是用来显示当前系统的进程情况，有哪些进程，及其 id。jps(Java Virtual Machine Process Status Tool，JAVA_HOME/bin/jps)也是一样，它的作用是显示当前系统的java进程情况，及其id号。我们可以通过它来查看我们到底启动了几个java进程（因为每一个java程序都会独占一个java虚拟机实例），和他们的进程号（为下面几个程序做准备

2017-09-18 10:07:49 1132

原创 you need to have ldconfig in your PATH env when enabling luajit

在安装阿里的OpenResty®（通过 Lua 扩展 NGINX 实现的可伸缩的 Web 平台）时出现如下错误：you need to have ldconfig in your PATH env when enabling luajit解决方法：编辑Makefile文件，将can_run("ldconfig")改成can_run("/sbin/ldconfig")

2017-08-31 18:26:37 3041

转载 Scala:fold,foldLeft和foldRight区别与联系

从本质上说，fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外，做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。　　我将从一个简单的例子开始，用fold计算一系列整型的和。val numbers = List(5, 4, 8, 6, 2) numbers.fold(0) { (z, i) =>

2017-08-23 11:43:01 578

转载 Scala:fold,foldLeft和foldRight区别与联系

从本质上说，fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外，做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。　　我将从一个简单的例子开始，用fold计算一系列整型的和。valnumbers =List(5,4,8,6,2)

2017-08-23 11:39:43 909

转载 Hbase中内置Filter详解

一、建表1、表名：“ORDER_TABLE”2、列簇：“user”，“order”，“item”3、表结构如下：二、封装服务服务代码如下：[java] view plain copy@Override public String get(String tableName, Filter

2017-08-10 09:23:09 2285

原创 Failed deleting my ephemeral node

Failed deleting my ephemeral node2017-01-05 11:07:39,490 WARN zookeeper.RecoverableZooKeeper: Node /hyperbase1/rs/tw-node1217,60020,1483585655650 already deleted, retry=false2017-01-05 1

2017-08-09 09:25:04 1528

转载 MapReduce生成HFile文件,再使用BulkLoad导入HBase中(完全分布式运行)

声明: 若要转载, 请标明出处.前提: 在对于大量的数据导入到Hbase中, 如果一条一条进行插入, 则太耗时了, 所以可以先采用MapReduce生成HFile文件, 然后使用BulkLoad导入hbase中. 引用:一、这种方式有很多的优点：1. 如果我们一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就是使

2017-07-25 15:06:07 1402 1

转载 ElasticSearch 5.0.0 安装部署常见错误或问题

http://www.dajiangtai.com/community/18136.do?origin=csdn-geek&dt=1214ElasticSearch 5.0.0 安装部署常见错误或问题问题一：[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to instal

2017-07-07 10:09:31 1126

转载在scala中利用org.json4s 操作json

https://github.com/json4s/json4s/tree/v.3.2.0_scala2.10SON4S At this moment there are at least 6 json libraries for scala, not counting the java json libraries. All these libraries

2017-07-05 11:16:18 17879

原创提交spark streming报错

运行spark streaming报错：LeaseExpiredException): No lease on /user/razor/ssc-chkpoint/cd/temp (inode 105931)解决方法：ps -ef | grep Count #发现有好几个流计算进程(Count为提交的任务名称)，全部杀掉，重新spark-submit，ok

2017-06-08 11:05:21 574

转载 Spark Master、Worker、Driver、Executor工作流程详解

http://blog.csdn.net/zhumr/article/details/525185061、Spark的部署图：在基于standalone的Spark集群，Cluster Manger就是Master。 Master负责分配资源，在集群启动时，Driver向Master申请资源，Worker负责监控自己节点的内存和CPU等状况，并向Master汇报。

2017-06-08 10:04:59 9532 3

转载 spark读取kafka数据 createStream和createDirectStream的区别

1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk],[consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据，利用的是Kafka高层次的消费者api，对于所有的receivers接收到的数据将会保存在Spark executors中，然后通过

2017-06-08 10:04:11 732

转载 Spark Yarn-cluster与Yarn-client

http://blog.csdn.net/BlockheadLS/article/details/533293230 首先注意的概念ResourceManager：是集群所有应用程序的资源管理器，能够管理集群的计算资源并为每个Application分配，它是一个纯粹的调度器。 NodeManager：是每一台slave机器的代理，执行应用程序，并监控应用程序的资源使用情况。

2017-05-19 19:41:40 410

原创 linux系统自带的crontab命令调度MR

crontab.sh（该文件放在/home/.........../job目录下）内容如下： test.sh（该文件放在/home............/job目录下）中执行命令：crontab -u razor crontab.sh （-u指定以razor用户跑命令，执行此命令前要确保test.sh job_hourly.sh job_daily

2017-05-19 14:53:32 492

转载 Mybatis拦截器介绍及分页插件

因项目需要对表格进行分页，前段采用bootstrap-paginator，后端采用MyBatis的拦截器实现分页sql查询，具体如下：原文 http://haohaoxuexi.iteye.com/blog/1851081Mybatis 拦截器介绍1.1 目录1.2 前言1.3 Interceptor接口1.4 注册拦截器1.5

2017-05-08 19:04:48 310

原创 java端发送数据给fafka不成功的问题

从网上找了一些producer和consumer的java例子，在producer中发送数据的时候就是进不去kafka，但是控制台并不报错，另外在kafka上直接用kafka-console-producer和kafka-console-consumer命令是有数据的，试了好长时间，最后在maven中把kafka的依赖从版本0.8.0改为0.8.2.0，就可以了，到现在我也没搞懂为啥？知道原因

2017-04-14 10:41:21 663 1

原创 CDH集群报一个DataNode未连接上的错误

之前有一次，启动CDH集群突然报slave03这个DataNode未连接上的错误，直接导致HBase等服务组件出现问题经过排查，一开始，将原来的hosts文件：192.168.1.15 archive.cloudera.com192.168.1.7 slave01192.168.1.11 slave02192.168.1.12 cc.co.com192.168.

2017-04-13 16:05:47 2060

原创 elasticsearch引用jar包与其他jar冲突解决办法

问题提出：官网blog：https://www.elastic.co/blog/to-shade-or-not-to-shade比如你的项目中引用的Joda 2.1，而elasticsearch 2.2.0引用的Joda 2.8，则在使用elasticsearch的时候以为会先找到Joda 2.1，导致elasticsearch用不起来，所以怎么解决呢1.新建一个maven项目进行

2017-04-10 16:42:16 3989

转载图解正向代理、反向代理、透明代理

图解正向代理、反向代理、透明代理套用古龙武侠小说套路来说，代理服务技术是一门很古老的技术，是在互联网早期出现就使用的技术。一般实现代理技术的方式就是在服务器上安装代理服务软件，让其成为一个代理服务器，从而实现代理技术。常用的代理技术分为正向代理、反向代理和透明代理。本文就是针对这三种代理来讲解一些基本原理和具体的适用范围，便于大家更深入理解代理服务技术。一、正向代理(Forward Pro

2017-03-27 15:16:41 334

原创 mybatis resultType=java.util.Map 时注意返回null

利用mybatis 动态查询一条记录，而返回是一个map（resultType=”java.util.Map”，键是字段名，值是字段值），比如操作数据库是通过存储过程或者是直接传一个String sql="select * from emp where e_id=1"字符串来返回一个map。1、如果某一列的值为空。查询这条记录时就不显示这列了。《===map中无此对应的键2

2017-03-24 15:21:16 15412

原创 sqoop常用命令整理

1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username root -password 0000002、连接mysql并列出数据库中的表sqoop list-tables --connect jdbc:mysql://localhost:3306/test --us

2017-03-24 15:18:10 6258

转载 Oracle数据库导入导出命令总结

IMP 和EXP命令Oracle数据导入导出imp/exp就相当于oracle数据还原与备份。exp命令可以把数据从远程数据库服务器导出到本地的dmp文件，imp命令可以把dmp文件从本地导入到远处的数据库服务器中。利用这个功能可以构建两个相同的数据库，一个用来测试，一个用来正式使用。执行环境：可以在SQLPLUS.EXE或者DOS（命令行）中执行，DOS中可以执行时由于在ora

2017-03-19 11:38:33 534

转载 Flume-ng

Flume-ng的原理和使用原文 http://blog.javachen.com/2014/07/22/flume-ng.html主要是转载，但是leehbing也进行了一些整理，给网友献上1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。由原来的Flum

2017-03-19 11:20:19 359

转载全面了解Nginx主要应用场景

作者：RayeWangwww.raye.wang/2017/02/24/quan-mian-liao-jie-nginxdao-di-neng-zuo-shi-yao/如有好文章投稿，请点击 → 这里了解详情前言本文只针对Nginx在不加载第三方模块的情况能处理哪些事情，由于第三方模块太多所以也介绍不完，当然本文本身也可能介绍的不完整，毕竟只是我个人使用过和了解

2017-03-14 09:46:25 373

转载 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

原文：www.linbingdong.comZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Goog

2017-03-14 09:16:29 446

空空如也

空空如也