- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 spark-streaming direct stream的部分实现原理
今天看了一片介绍spark-streaming direct stream的实现原理,文章在这个地址(内容加载比较慢,打开链接后等几分钟内从才能显示出来):Exactly-once Spark Streaming from Apache Kafka 总结一下几点: 1. spark-streaming其实是根据interval创建了rdd stream。在创建rdd的时
2015-05-29 16:37:25 1767
原创 kafka的消息发送的三种模式
1. At most once模式 消费者读取消息,更新消息的offset,然后处理消息。这种方式的风险是在更新消息的offset之后,处理消息结果的输出之前消费者挂掉,消费者再启动的时候,从新的offset开始消费消息,导致处理消息丢失2. At least once模式 消费者读取消息,处理消息并输出,更新消息的offset。这种方式的风险是在处理消息的结果输出之后,更新
2015-05-29 14:26:29 8557
原创 spark程序对hadoop环境的依赖,导致checkpoint失败问题的解决
虽然没有使用hadoop,但是在windows下运行spark程序报如下错误:INFO : org.apache.spark.SparkContext - Running Spark version 1.3.1WARN : org.apache.hadoop.util.NativeCodeLoader - Unable to load native-hadoop library for yo
2015-05-28 16:47:21 4756
原创 Exception in thread "main" java.lang.IllegalArgumentException: Some primary key columns are missing
Exception in thread "main" java.lang.IllegalArgumentException: Some primary key columns are missing in RDD or have not been selected:sockpuppetuser我的类定义如下:private static class IPSockpuppetUser{
2015-05-27 16:42:48 4965
原创 显示cassandra所有keyspace的方法
使用如下cql语句:select * from system.schema_keyspaces;
2015-05-27 15:30:46 5341
原创 spark中的aggregate action的实现过程
例子代码如下:public final class BasicAvg { public static class AvgCount implements Serializable { public AvgCount(int total, int num) { total_ = total; num_ = num;
2015-05-22 18:12:25 1482
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人