大龄大数据爱好者-CSDN博客

原创 spark分类训练时因分类标签值太大导致outOfMemery

最近在研究spark的ml库，刚好公司有需求想做一个分类器，于是拿了一批数据进行测试，数据不多，训练集只有50w的数据（当然我的测试环境配置也不高，因为装了CDH，导致每台机器只有3G的空闲内存），在做测试的时候，每次都是在生成分类模型的时候报outOfMemery错误，各种设置内存相关的参数都修改了，可依然没有效果。正在素手无策的时候，找了以前的例子进行比较（以前做个一个用搜狗语料库训练分类

2016-07-08 15:37:18 473

原创 CDH5中spark写mysql报“Did not find registered driver with class com.mysql.jdbc.Driver”错误原因

前几天把CDH5.7顺利的装起来了，今天想试下用spark往mysql里面写计算结果，结果老是提示“java.lang.IllegalStateException: Did not find registered driver with class com.mysql.jdbc.Driver”，用了各种方法，包括在spark-submit命令中加入 --jars 、--driver-class

2016-05-19 20:02:16 5849

原创 FSDataOutputStream中的hsync()不起作用？

最近在做一个demo，用flume收集实时日志到hdfs，然后用spark来读，写入spark用的的FSDataOuputStream，写入的格式是avro格式的。计划是在append数量到了1000条的时候就flush一次，结果发现调用hflush后，只有第一次的时候文件大小才会变化，根据这个接口说明，一旦hflush后，reader能可以看到最新的数据，于是，写了个reader去读，真的能读到

2016-05-09 14:57:29 1174

原创 flume的memeryChannel中transactionCapacity和sink的batchsize需要注意事项

最近在做flume的实时日志收集，用flume默认的配置后，发现不是完全实时的，于是看了一下，原来是memeryChannel的transactionCapacity在作怪，因为他默认是100，也就是说收集端的sink会在收集到了100条以后再去提交事务（即发送到下一个目的地），于是我修改了transactionCapacity到10，想看看是不是会更加实时一点，结果发现收集日志的agent启动的

2016-04-29 10:11:00 6669

原创关于kafka的新的group无法订阅到topic中历史消息的问题

今天在写kafka的java api例子时候，遇到一个问题，比如我创建了一个test主题，往里面写了1,2,3,4,5条消息，在这个时候，我用一个新的group启动了一个消费者，发现该消费者只能读到5以后的消息，而1到5的消息是读不到的，于是感到疑惑，就去官网上找了一下，看到这这样一个配置项“auto.offset.reset”，该配置项的描述如下：What to do when there

2016-04-18 16:16:38 5351 2

原创初次接触spark的一点理解

由于工作的需要，在考虑用spark作为实时日志分析的框架，而之前没有接触过spark，只是在网上看到大家对它评价很高，于是就开始去着手学习它，从官方文档和网上各种资料狠狠恶补了两天，综合这两天的收获，谈一谈对spark的肤浅的理解一、spark的三种运行模式（这里没有去关注mesos）1、standlone模式这种模式是spark在做计算时候的一种独立模式，这种模式是为了让初学sp

2016-04-15 15:26:17 2150

mongodb教程

感觉描述挺详细的，一步一步教你怎么学会mongodb

2014-05-23

java笔试题集

1、作用域public,private,protected,以及不写时的区别答：区别如下：作用域当前类同一package 子孙类其他package public √ √ √ √ protected √ √ √ × friendly √ √ × × private √ × × × 不写时默认为friendly

2011-10-13

设计模式之追MM---浅显易懂

1、FACTORY一追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory