2015年05月_heayin123

12月 11月 10月 09月 07月 06月 05月 03月 02月 01月

原创 spark-streaming direct stream的部分实现原理

今天看了一片介绍spark-streaming direct stream的实现原理，文章在这个地址（内容加载比较慢，打开链接后等几分钟内从才能显示出来）：Exactly-once Spark Streaming from Apache Kafka 总结一下几点： 1. spark-streaming其实是根据interval创建了rdd stream。在创建rdd的时

2015-05-29 16:37:25 1767

原创 kafka的消息发送的三种模式

1. At most once模式消费者读取消息，更新消息的offset，然后处理消息。这种方式的风险是在更新消息的offset之后，处理消息结果的输出之前消费者挂掉，消费者再启动的时候，从新的offset开始消费消息，导致处理消息丢失2. At least once模式消费者读取消息，处理消息并输出，更新消息的offset。这种方式的风险是在处理消息的结果输出之后，更新

2015-05-29 14:26:29 8557

原创 spark程序对hadoop环境的依赖，导致checkpoint失败问题的解决

虽然没有使用hadoop，但是在windows下运行spark程序报如下错误：INFO : org.apache.spark.SparkContext - Running Spark version 1.3.1WARN : org.apache.hadoop.util.NativeCodeLoader - Unable to load native-hadoop library for yo

2015-05-28 16:47:21 4756

原创 Exception in thread "main" java.lang.IllegalArgumentException: Some primary key columns are missing

Exception in thread "main" java.lang.IllegalArgumentException: Some primary key columns are missing in RDD or have not been selected:sockpuppetuser我的类定义如下：private static class IPSockpuppetUser{

2015-05-27 16:42:48 4965

原创显示cassandra所有keyspace的方法

使用如下cql语句：select * from system.schema_keyspaces;

2015-05-27 15:30:46 5341

原创 spark中的aggregate action的实现过程

例子代码如下：public final class BasicAvg { public static class AvgCount implements Serializable { public AvgCount(int total, int num) { total_ = total; num_ = num;

2015-05-22 18:12:25 1482

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 spark-streaming direct stream的部分实现原理

原创 kafka的消息发送的三种模式

原创 spark程序对hadoop环境的依赖，导致checkpoint失败问题的解决

原创 Exception in thread "main" java.lang.IllegalArgumentException: Some primary key columns are missing

原创 显示cassandra所有keyspace的方法

原创 spark中的aggregate action的实现过程

空空如也

空空如也

原创显示cassandra所有keyspace的方法