- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 spark分类训练时因分类标签值太大导致outOfMemery
最近在研究spark的ml库,刚好公司有需求想做一个分类器,于是拿了一批数据进行测试,数据不多,训练集只有50w的数据(当然我的测试环境配置也不高,因为装了CDH,导致每台机器只有3G的空闲内存),在做测试的时候,每次都是在生成分类模型的时候报outOfMemery错误,各种设置内存相关的参数都修改了,可依然没有效果。 正在素手无策的时候,找了以前的例子进行比较(以前做个一个用搜狗语料库训练分类
2016-07-08 15:37:18
470
原创 CDH5中spark写mysql报“Did not find registered driver with class com.mysql.jdbc.Driver”错误原因
前几天把CDH5.7顺利的装起来了,今天想试下用spark往mysql里面写计算结果,结果老是提示“java.lang.IllegalStateException: Did not find registered driver with class com.mysql.jdbc.Driver”,用了各种方法,包括在spark-submit命令中加入 --jars 、--driver-class
2016-05-19 20:02:16
5843
原创 FSDataOutputStream中的hsync()不起作用?
最近在做一个demo,用flume收集实时日志到hdfs,然后用spark来读,写入spark用的的FSDataOuputStream,写入的格式是avro格式的。计划是在append数量到了1000条的时候就flush一次,结果发现调用hflush后,只有第一次的时候文件大小才会变化,根据这个接口说明,一旦hflush后,reader能可以看到最新的数据,于是,写了个reader去读,真的能读到
2016-05-09 14:57:29
1167
原创 flume的memeryChannel中transactionCapacity和sink的batchsize需要注意事项
最近在做flume的实时日志收集,用flume默认的配置后,发现不是完全实时的,于是看了一下,原来是memeryChannel的transactionCapacity在作怪,因为他默认是100,也就是说收集端的sink会在收集到了100条以后再去提交事务(即发送到下一个目的地),于是我修改了transactionCapacity到10,想看看是不是会更加实时一点,结果发现收集日志的agent启动的
2016-04-29 10:11:00
6656
原创 关于kafka的新的group无法订阅到topic中历史消息的问题
今天在写kafka的java api例子时候,遇到一个问题,比如我创建了一个test主题,往里面写了1,2,3,4,5条消息,在这个时候,我用一个新的group启动了一个消费者,发现该消费者只能读到5以后的消息,而1到5的消息是读不到的,于是感到疑惑,就去官网上找了一下,看到这这样一个配置项“auto.offset.reset”,该配置项的描述如下: What to do when there
2016-04-18 16:16:38
5338
2
原创 初次接触spark的一点理解
由于工作的需要,在考虑用spark作为实时日志分析的框架,而之前没有接触过spark,只是在网上看到大家对它评价很高,于是就开始去着手学习它,从官方文档和网上各种资料狠狠恶补了两天,综合这两天的收获,谈一谈对spark的肤浅的理解 一、spark的三种运行模式(这里没有去关注mesos) 1、standlone模式 这种模式是spark在做计算时候的一种独立模式,这种模式是为了让初学sp
2016-04-15 15:26:17
2145
java笔试题集
2011-10-13
设计模式之追MM---浅显易懂
2011-10-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人