wangweislk
码龄12年
关注
提问 私信
  • 博客:195,634
    问答:3,897
    199,531
    总访问量
  • 22
    原创
  • 1,279,043
    排名
  • 40
    粉丝
  • 0
    铁粉

个人简介:大数据金融

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2012-12-28
博客简介:

活的洒脱怪我咯的专栏

博客描述:
专注大数据行业技术总结和分享
查看详细资料
个人成就
  • 获得39次点赞
  • 内容获得27次评论
  • 获得148次收藏
创作历程
  • 8篇
    2018年
  • 9篇
    2017年
  • 1篇
    2016年
  • 5篇
    2015年
成就勋章
TA的专栏
  • Apache Drill
    1篇
  • Spark
    10篇
  • Hbase
    2篇
  • Flume
    1篇
  • Kafka
    2篇
  • Hadoop
    2篇
  • hive
  • 图数据库-neo4j
    3篇
  • Scala
  • presto
    1篇
  • 随笔
  • 机器学习
  • elasticsearch
    2篇
  • Apa
  • Apache Flink
    3篇
  • YARN
    1篇
  • Storm
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【Flink】Basic API的核心概念

目录1.DataSet and DataStream2.Anatomy of a Flink Program(Flink程序剖析)3.Lazy Evaluation(延迟执行)4.Specifying Keys(key的定义)1.Define keys for Tuples(元组键)2.Define keys using Field Expressions(字段表达式键)...
原创
发布博客 2018.12.29 ·
879 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Flink】核心概念

目录1、Dataflow Programming Model(Dataflow编程模型)1.1、Levels of Abstraction(抽象层)1.2、Programs and Dataflows(编程和数据流)1.3、Parallel Dataflows(并行数据流图)1.4、Windows(窗口)1.5、Time(时间)1.6、Stateful Operatio...
原创
发布博客 2018.12.21 ·
1326 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Storm的默认配置参数

Storm的默认参数配置:在defaults.yaml文件中https://github.com/apache/storm/blob/v1.0.6/conf/defaults.yaml java.library.path: "/usr/local/lib:/opt/local/lib:/usr/lib"### storm.* configs are general configu...
原创
发布博客 2018.10.31 ·
3633 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Flink】Flink集群部署与YARN集成

1、Standalone软件要求:Java 1.8.x or highersshJAVA_HOME配置You can set this variable in conf/flink-conf.yaml via the env.java.home key.Flink配置:下载解压配置:conf/flink-conf.yaml
原创
发布博客 2018.01.17 ·
11669 阅读 ·
1 点赞 ·
1 评论 ·
5 收藏

HBase性能调优

本文就HBase的优化做一些总结,同时也借鉴了网上的一些方法,设计到从表的设计优化,读写,系统配置优化等1、表的设计优化1.1、预分区默认情况下,在创建表的时候会自动创建一个region分区,当写入数据时候,所有的HBase客户端都会往这个region写数据,直到这个region的达到设置的阈值(默认是256M,可以通过hbase.hregion.max.filesize设置)才进行s
原创
发布博客 2018.01.10 ·
1329 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【异常】SparkStreaming抛出Listener SQLListener threw an exception异常

问题描述SparkStreaming在长时间运行时,偶尔会出现下面的异常:2018-01-08 18:42:03 [ SparkListenerBus:32824468 ] - [ ERROR ] Listener SQLListener threw an exceptionjava.lang.IllegalStateException: Attempted to access ga
原创
发布博客 2018.01.09 ·
3804 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

Spark中使用kyro序列化

序列化在分布式系统中扮演着重要的角色,优化Spark程序时,首当其冲的就是对序列化方式的优化。Spark为使用者提供两种序列化方式:Java serialization: 默认的序列化方式。Kryo serialization: 相较于 Java serialization 的方式,速度更快,空间占用更小,但并不支持所有的序列化格式,同时使用的时候需要注册class。spark-sql中默
转载
发布博客 2018.01.08 ·
9356 阅读 ·
0 点赞 ·
2 评论 ·
6 收藏

【异常】SparkStreaming长时间运行出现: Dropping SparkListenerEvent because no remaining room in event queue

问题描述在SparkStreaming任务提交后,经过长时间的运行会在SparkUI的Jobs界面出现Job的执行时间出现几个小时的情况,点进去发现Stage已经处于unkown状态,如下图:查看日志后发现下面ERROR异常:2018-01-06 16:42:03 [ dag-scheduler-event-loop:600497 ] - [ ERROR ] Dropping Sp
原创
发布博客 2018.01.08 ·
4374 阅读 ·
3 点赞 ·
1 评论 ·
6 收藏

【异常】Spark写入HBase时写入DataNode失败:dfs.client.block.write.replace-datanode-on-failure.policy

问题描述:在SparkStreaming长时间写入HBase的时候,会下面的异常问题:2017-12-24 23:20:34 [ SparkListenerBus:540107357 ] - [ ERROR ] Listener EventLoggingListener threw an exceptionjava.io.IOException: Failed to replace
原创
发布博客 2017.12.25 ·
6735 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【异常】elasticsearch的RestClientAPI请求超时问题:java.lang.RuntimeException: error while performing request

问题描述:在Spark中使用elasticsearch的RestClient API在读取es中数据时,出现TimeoutException,在之前的优化的中做下面的超时设置,这个只能解决request retries exceeded max retry timeout [30000]这种超时:RestClient build = RestClient.builder(httpHosts
原创
发布博客 2017.12.19 ·
39743 阅读 ·
1 点赞 ·
1 评论 ·
20 收藏

【异常】使用Elasticsearch的REST Client的An HTTP line is larger than 4096 bytes

问题描述:在使用Elasticsearch的RestHightClient API 去搜索ES数据,当请求的参数过长的出现下面的异常:{"type":"too_long_frame_exception","reason":"An HTTP line is larger than 4096 bytes."},默认情况下ES对请求参数设置为4K,如果遇到请求参数长度限制可以在elasticse
原创
发布博客 2017.12.04 ·
12390 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【异常】SparkSession执行action操作时java.lang.ClassNotFoundException: org.codehaus.commons.compiler.Unchecked

org.spark_project.guava.util.concurrent.ExecutionError: java.lang.NoClassDefFoundError: org/codehaus/commons/compiler/UncheckedCompileException at org.spark_project.guava.cache.LocalCache$Segment.get(LocalCache.java:2261) at org.spark_project.guava.cach
原创
发布博客 2017.12.01 ·
7234 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【异常】关于使用ES的RestHighLevel JavaAPI执行search操作时,参数的问题

问题描述:在使用ES的JavaRest API 的RestHighLevelClient,执行searchRequest操作时,出现部分请求参数不能识别的情况,如下:contains unrecognized parameters: [batched_reduce_size], [typed_keys]]ElasticsearchStatusException[Elasticsea
原创
发布博客 2017.11.30 ·
10752 阅读 ·
0 点赞 ·
4 评论 ·
0 收藏

Spark Kafka(createDirectStream)自己管理offset

1、SparkStreaming中使用Kafka的createDirectStream自己管理offset在Spark Streaming中,目前官方推荐的方式是createDirectStream方式,但是这种方式就需要我们自己去管理offset。目前的资料大部分是通过scala来实现的,并且实现套路都是一样的,我自己根据scala的实现改成了Java的方式,后面又相应的实现。Dir
原创
发布博客 2017.10.25 ·
6045 阅读 ·
4 点赞 ·
9 评论 ·
13 收藏

Spark Bulkload(Java)

1、使用Spark通过Bulkload的方式导数据到Hbase在未用Bulkload写Hbase时,使用RDD进行封装为Tuple2的KVRDD,然后通过saveAsNewAPIHadoopDataset写Hbase,非常慢,400G的数据大概写了2H+还没写完,后面没有办法就考虑使用Bulkload来导入数据。在测试之前网上很多资料都是Scala版本的,并且实现都是单个列来操作,实际
原创
发布博客 2017.10.25 ·
3977 阅读 ·
4 点赞 ·
1 评论 ·
9 收藏

Spark使用 saveAsNewAPIHadoopFile 通过Bulkload写Hbase错误

发布问题 2017.10.11 ·
0 回答

spark源码分析(2)-源码阅读环境准备

在前面介绍wordcount例子时没有对spark源码阅读环境的准备进行说明,本文就主要介绍Spark源码阅读环境的构建1、环境准备操作系统采用Ubuntu14.04(案例采用虚拟机中安装模式,桥接模式可访问外网)下载JDK1.7+,Scala2.10(spark 1.6.3之前采用的是2.10版本,spark2.0之后采用scala2.11版本),SBT,Maven3.3.9下载
原创
发布博客 2017.03.16 ·
679 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark源码分析-以wordcount为入口进行spark-submit源码分析

1、用wordcount程序进行spark源码环境准备和程序入口1)Standalone模式启动启动Master,start-master.sh输出:/home/weiw/spark-1.6.3-bin-hadoop2.6/sbin/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip ubuntu
原创
发布博客 2017.03.14 ·
1823 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

presto安装介绍

Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。
原创
发布博客 2016.03.07 ·
2434 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

图数据库之neo4j-jdbc的使用

使用JDBC连接neo4j,并对数据库进行操作。与常规数据库的JDBC 连接类似。
原创
发布博客 2015.08.20 ·
5792 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏
加载更多