自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

-_- 's blog

growing...

  • 博客(9)
  • 收藏
  • 关注

原创 实时解析日志遇到的问题记录

使用createDirectStream实现精确一次的读取,kafka的offset保存到Zookeeper中。1. kafka参数auto.offset.reset :smallest, largest 默认为”largest”,此配置参数表示当此groupId下的消费者,在ZK中没有offset值时(比如新的groupId,或者是zk数据被清空),consumer应该从哪个offset开始消费

2016-12-06 18:05:34 594

原创 创建DataFrame遇到的问题

createDataFrame

2016-11-24 17:53:14 4009

原创 zbus

准备使用对数据流进行改造,zbus比较轻量,使用也挺简单的,今天使用的时候遇到了几个问题,在此记录一下:1. idea java工程生产者消费者运行了一下没什么问题,不过用web工程报错了:java.lang.NoClassDefFoundError: org/zbus/broker/Broker查了一下,应该是idea的问题,发布工程的时候没有将相关jar包引入 把avaliable的包引

2016-11-09 20:22:51 1710 1

原创 SparkStreaming hello world

sparkstreaming

2016-11-05 22:41:51 320

原创 Spark项目问题记录

问题一,打包spark项目,idea编译器,导入jar包的方式打包没问题,用maven导包之后编译还按照之前的Project Structure方式打包,执行spark-submit报错:Exception in thread “main” java.lang.SecurityException: Invalid signature file digest for Manifest main att

2016-11-04 14:24:55 720

原创 Centos安装MySQLdb记录

项目要用python连接mysql,查了一下需要python的MySQLdb模块。 首先在python中确定有没有安装这个模块 import MySQLdb #注意大小写 发现并没有安装,下面开始安装1.安装mysql相关的库服务器上默认的mysql版本是这样的yum list installed | grep mysql 发现这个里边并没有mysql-devel这个东西,它包含了编译客户端相

2016-10-20 14:48:25 349

原创 上传文件服务器搭建

有需求需要搭建一个上传文件服务器,最开始考虑使用Nginx+upload模块,后台php处理,后来尝试了一下tomcat+spring方法,都可以满足需求。Nginx + upload module网上的配置文章比较多,这里只是记录一下出现的坑吧。1. nginx加上upload 模块后编译不过upload module貌似只支持到nginx 1.3.8,开始使用高版本的nginx老是编译不过,后来

2016-10-19 15:57:39 5032

转载 MapReduce --InputFormat

原以为理解了WordCount程序实现,但是稍稍有些改变又发现不清楚了,回头看就是WordCount还是有一些不明白的,比如里边setInputFormat就不知道是干嘛的,找到一篇博文,大神讲解的很详细: http://www.cnblogs.com/shitouer/archive/2013/02/28/hadoop-source-code-analyse-mapreduce-inputfor

2016-10-10 11:27:19 288

转载 MapReduce实现技术分析+WordCount分析

之前看了一些MapReduce的文章,单独讲Mapreduce各步骤实现过程和WordCount的比较多。尤其是WordCount程序的分析基本都是粘贴官方的,并不是很详细。 看到 雷子-晓飞爸 的文章 http://www.cnblogs.com/npumenglei/ ,觉得写的非常好,拿来参考一下。 图中没有包含spill,spill是MapReduce利用内存缓冲的方式提高效率,

2016-10-09 16:34:42 669

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除