2017年08月_九指码农

原创 mongodb 分片集群删除片键 code : 20 sharding already enabled for collection

mongodb分片集群指定片键删除了一个collection，再次为这个collection创建片键的时候，会报错{ "ok" : 0, "errmsg" : "sharding already enabled for collection test.test", "code" : 20}解决办法就是在config库里面删除这个collection相关的信息，主要涉及

2017-08-30 21:14:57 3498

原创 spark-sql like查询

当时遇到使用两个表，需要用到like的时候，建议使用map side join或者使用spark sql的broad cast joinsqlContext.sql( """ |select * from left A,right B where A.url like contact(B.url,'%') """.stripMargin) val importantBroad =

2017-08-27 14:53:47 8237

原创 spark-sql not in 优化

spark-sql支持not in val conf = new SparkConf().setAppName("spark_sql").setMaster("local[2]") val sc = SparkContext.getOrCreate(conf) val pathes = Array("","","") val sqlContext = new SQLCon

2017-08-27 14:23:33 3831

转载 java 获取kafka offsets（偏移量）

public KafkaInfoClient(){ init(); } public Map<Integer,Long> getEarliestOffset(String topic) { //kafka.api.OffsetRequest.EarliestTime() = -2 return getTopicOffset(topic,k

2017-08-27 14:08:05 10503 2

原创 spark streaming读取kafka 零丢失（三）

方式二：方法二就是每次streaming 消费了kafka的数据后，将消费的kafka offsets更新到zookeeper。当你的程序挂掉或者升级的时候，就可以接着上次的读取，实现数据的令丢失和 at most once。而且使用checkpoint的方式可能会导致数据重复消费，spark streaming维护的offset和zookeeper维护的偏移量不同步导致数据丢失或者重复消费等。

2017-08-27 14:01:26 481

原创 spark streaming读取kafka数据令丢失（二）

方式二：方法二就是每次streaming 消费了kafka的数据后，将消费的kafka offsets更新到zookeeper。当你的程序挂掉或者升级的时候，就可以接着上次的读取，实现数据的令丢失和 at most once。而且使用checkpoint的方式可能会导致数据重复消费，spark streaming维护的offset和zookeeper维护的偏移量不同步导致数据丢失或者重复消费等。

2017-08-27 13:58:28 1353

原创 spark-streaming 读取kafka数据不丢失（一）

spark streaming 读取kafka的时候，数据丢失是一个很大的问题，streaming 通过direct方式读取kafka，提供了checkpoint方式去自己维护读取kafka的offset，将数据放到hdfs。方式： def main(args: Array[String]) { def func(): StreamingContext ={ val conf

2017-08-27 13:56:31 800

原创 spark-streaming 读取kafka的方式

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式，可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列，Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。recei

2017-08-27 13:19:48 385

原创 java 正则去除中文标点符号

在作文本分析，尤其是分词的时候，我们需要把不需要的标点符号去除，防止在词转向量的时候，把中文符号添加进去。"[\\pP+~$`^=|<>～｀＄＾＋＝｜＜＞￥×]""[\\p{P}+~$`^=|<>～｀＄＾＋＝｜＜＞￥×]"我使用的是ansj分词器，其5.x版本有提供Recognition接口，用于在分词的时候剔除不需要的，比如剔除停用词、标点符号，根据词性剔除一批词，也支持正则表达式，很强大。

2017-08-20 11:03:38 3695

原创 kafka各版本差异

kafka-0.8.2 新特性　　producer不再区分同步（sync）和异步方式（async），所有的请求以异步方式发送，这样提升了客户端效率。producer请求会返回一个应答对象，包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节点，因而可以减少server端资源的开销。新的producer和所有的服务器网络通信都是异步地，在ack=-1模式下需要等待所有的re

2017-08-04 15:42:41 3973

qq_14950717的博客