卧龙居

博观约取,厚积薄发

目前Spark Application处理的数据量和性能

今年最值得开心的事情,就是Spark Application在客户局点跑的效果。虽然里面涉及的算法由于涉密所以不能透露,但是性能杠杠的还是值得高兴一下的。 每秒钟的数据量大概为40万~80万条。 实时Spark Application的性能(开5分钟的时间窗口): 5分钟内可以处理完...

2018-11-23 09:18:38

阅读数 747

评论数 2

Apache Flink 各类关键数据格式读取/SQL支持

目前事件归并分为两种,一种为实时的归并,即基于Kafka内的数据进行归并和事件生成;一种是周期性的归并,即基于Hive中的数据进行数据的归并和事件生成。 基于SQL归并时Spark Streaming支持的输入/输出数据如下: 数据类型 Flink支持情况 ...

2018-11-02 16:03:22

阅读数 5463

评论数 1

Apache Flink CEP学习总结

1. 简介 Apache Flink是一个计算框架,地位和Spark差不多。里面的API也有与Spark类似的,例如FlinkKafkaConsumer010对应着Spark里的读取Kafka形成流的API,DataStream对应着Spark里的DStream,也有一系列的transform ...

2018-11-02 15:51:06

阅读数 3175

评论数 3

Hadoop Namenode启动报错GC overhead limit exceeded

Hadoop Namenode启动报错: 看起来是fsimage中的节点数目过多,导致的GC Overhead超过限制。Fsimage是namenode维护的重要文件之一,它包含了整个HDFS文件系统的所有目录信息和文件信息。对于文件来说包含了数据块描述信息、修改时间、访问时间等;对于目录来...

2018-09-28 11:24:05

阅读数 508

评论数 0

编译zeppelin

1.单独编译zeppelin-web cd zeppelin-web  mvn clean package -DskipTests 如果中途phantomJS安装报错,手动安装PhantomJS,命令为:npm install  2.回到主目录编译zeppelin mvn package -Ds...

2018-08-21 10:18:38

阅读数 970

评论数 0

hbase thrift连不上的错误(client.RpcRetryingCaller: Call exception)

现象为:python happybase连接hbase卡死,查看thrift里的日志发现:2018-06-26 15:19:43,192 INFO  [thrift-worker-11] client.RpcRetryingCaller: Call exception, tries=21, ret...

2018-06-26 15:39:06

阅读数 1631

评论数 0

spark on yarn(ERROR client.TransportClient: Failed to send RPC)

主要是给节点分配的内存少,yarn kill了spark application。 给yarn-site.xml增加配置: yarn.nodemanager.pmem-check-enabled false yarn.nodemanager.vmem-ch...

2017-04-05 22:01:01

阅读数 5295

评论数 0

java向kafka批量均匀发送数据的方法

RT。 public void sendData(String brokerList,String topic,List datas){ Properties properties = new Properties(); properties.put(&qu...

2017-02-15 19:51:01

阅读数 7874

评论数 1

Spark-在工作集上进行集群计算

Spark-在工作集上进行集群计算 MateiZaharia, Mosharaf Chowdhury,Michael J. Franklin, Scott Shenker, Ion Stoica 加利福利亚伯克利大学 摘要          MapReduce以及它的变体已经在集群上成功实现了大规...

2017-02-11 19:24:05

阅读数 3695

评论数 0

kafka-python批量发送数据的方法

from kafka import KafkaClient from kafka.producer import SimpleProducerdef send_data_2_kafka(datas): ''' 向kafka解析队列发送数据 ''' clie...

2017-01-16 18:13:26

阅读数 5675

评论数 0

DataFrame write().jdbc实现细节(源码阅读)

可以清楚看到,df.write().jdbc其实最后就是在mapPartition里进行批量的insert。如果我们是往postgresql库里写的话,copy明显是比批量insert快的,所以写成 mapPartition( copy in ) 其实是比直接调用df.write.jdbc要快速的。

2017-01-10 11:27:08

阅读数 2153

评论数 0

spark-submit提交application(yarn-client)源码阅读

2017-01-07 12:00:40

阅读数 762

评论数 0

executor-cores参数并未对vcores生效的原因分析

虽然目前大多数平台内置Application在提交时,只配置了–num-executors和–executor-memory参数,但是其他APP的开发者可能会配置–executor-cores参数。 举个例子: ./spark-submit –master yarn-client –execu...

2016-11-16 15:55:18

阅读数 4406

评论数 1

m维空间里n个点每点最近的第k个点的距离

题目如图。 m=4,即点均为四维空间的点。 n数目不定,可以理解为几万,几十万甚至上千万。 使用spark计算。资源配置为:executor-cores:6,executor-memory:10G。   解法一: 首先将点的矩阵弄成dataframe(dataframe里每一个Row的...

2016-11-12 14:53:39

阅读数 2333

评论数 1

Spark MLLib 梯度提升树

梯度提升树是决策树的群集。GBTs为了使损失函数的值最小化,迭代式的训练决策树。和决策树一样,GBTs可以处理离散特征,也可以扩展设置为多级分类,而不需要进行特征值缩放,所以有能力处理非线性以及特征交互。 spark.mllib支持二分类GBTs以及回归GBTs,可以使用连续或者离散型特征。Spa...

2016-11-10 12:31:25

阅读数 1023

评论数 0

IEDA远程debug spark application

1.spark-env.sh里的export SPARK_JAVA_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=9997" 2.启动spark application 3.ID...

2016-11-09 18:39:16

阅读数 313

评论数 0

Zeppelin源码阅读之更新notebook的paragraph部分

Zeppelin是一款web笔记本,可以迭代式的进行数据分析。比如%spark就可以写spark application相关的scala代码,%sql就可以直接写spark sql,写完后直接运行看效果,还可以出各种柱状图、区域图等,非常方便。 但是,最近却遇到了一次机器突然断电后,noteboo...

2016-10-11 19:44:00

阅读数 1018

评论数 0

table does not exists,select 1 from tablename limit 1

最近在postgreSQL的log里看到了大量的: table does not exists,select 1 from tablename limit 1 感觉非常奇怪。 1.第一直觉是应该没有业务会写类似: select 1 from tablename limit 1 这...

2016-09-09 23:50:14

阅读数 973

评论数 0

事件生成JOB调优笔记(spark streaming)

业务场景: 有三种原始日志,其中一种是告警日志取名为evt(用event_id和device_ip标记为唯一的一条,会不断发送相同的告警,但end_time、severity会变化),另外有两种流量日志取名为evt_srcip_traffic和evt_traffic_total分别表示该告警中关联...

2016-08-04 17:03:23

阅读数 774

评论数 0

运行在yarn上的spark job使用log4j无法记录日志问题

如题,弄了蛮久。主要Maven项目依赖了spark core,spark streaming等,这些里面用了slf4j记录日志;估计会和项目中的log4j起冲突,导致记录日志不成功。 换成slf4j就OK了。 pom.xml如下: org.slf4j slf4j-a...

2016-08-03 17:58:54

阅读数 2012

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭