自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (3)
  • 收藏
  • 关注

原创 spark分类训练时因分类标签值太大导致outOfMemery

最近在研究spark的ml库,刚好公司有需求想做一个分类器,于是拿了一批数据进行测试,数据不多,训练集只有50w的数据(当然我的测试环境配置也不高,因为装了CDH,导致每台机器只有3G的空闲内存),在做测试的时候,每次都是在生成分类模型的时候报outOfMemery错误,各种设置内存相关的参数都修改了,可依然没有效果。 正在素手无策的时候,找了以前的例子进行比较(以前做个一个用搜狗语料库训练分类

2016-07-08 15:37:18 470

原创 CDH5中spark写mysql报“Did not find registered driver with class com.mysql.jdbc.Driver”错误原因

前几天把CDH5.7顺利的装起来了,今天想试下用spark往mysql里面写计算结果,结果老是提示“java.lang.IllegalStateException: Did not find registered driver with class com.mysql.jdbc.Driver”,用了各种方法,包括在spark-submit命令中加入 --jars 、--driver-class

2016-05-19 20:02:16 5843

原创 FSDataOutputStream中的hsync()不起作用?

最近在做一个demo,用flume收集实时日志到hdfs,然后用spark来读,写入spark用的的FSDataOuputStream,写入的格式是avro格式的。计划是在append数量到了1000条的时候就flush一次,结果发现调用hflush后,只有第一次的时候文件大小才会变化,根据这个接口说明,一旦hflush后,reader能可以看到最新的数据,于是,写了个reader去读,真的能读到

2016-05-09 14:57:29 1167

原创 flume的memeryChannel中transactionCapacity和sink的batchsize需要注意事项

最近在做flume的实时日志收集,用flume默认的配置后,发现不是完全实时的,于是看了一下,原来是memeryChannel的transactionCapacity在作怪,因为他默认是100,也就是说收集端的sink会在收集到了100条以后再去提交事务(即发送到下一个目的地),于是我修改了transactionCapacity到10,想看看是不是会更加实时一点,结果发现收集日志的agent启动的

2016-04-29 10:11:00 6656

原创 关于kafka的新的group无法订阅到topic中历史消息的问题

今天在写kafka的java api例子时候,遇到一个问题,比如我创建了一个test主题,往里面写了1,2,3,4,5条消息,在这个时候,我用一个新的group启动了一个消费者,发现该消费者只能读到5以后的消息,而1到5的消息是读不到的,于是感到疑惑,就去官网上找了一下,看到这这样一个配置项“auto.offset.reset”,该配置项的描述如下: What to do when there

2016-04-18 16:16:38 5338 2

原创 初次接触spark的一点理解

由于工作的需要,在考虑用spark作为实时日志分析的框架,而之前没有接触过spark,只是在网上看到大家对它评价很高,于是就开始去着手学习它,从官方文档和网上各种资料狠狠恶补了两天,综合这两天的收获,谈一谈对spark的肤浅的理解 一、spark的三种运行模式(这里没有去关注mesos) 1、standlone模式   这种模式是spark在做计算时候的一种独立模式,这种模式是为了让初学sp

2016-04-15 15:26:17 2145

mongodb教程

感觉描述挺详细的,一步一步教你怎么学会mongodb

2014-05-23

java笔试题集

1、作用域public,private,protected,以及不写时的区别 答:区别如下: 作用域 当前类 同一package 子孙类 其他package public √ √ √ √ protected √ √ √ × friendly √ √ × × private √ × × × 不写时默认为friendly

2011-10-13

设计模式之追MM---浅显易懂

1、FACTORY一追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory

2011-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除