- 博客(10)
- 资源 (3)
- 收藏
- 关注
原创 mongodb 分片集群 删除片键 code : 20 sharding already enabled for collection
mongodb分片集群指定片键删除了一个collection,再次为这个collection创建片键的时候,会报错{ "ok" : 0, "errmsg" : "sharding already enabled for collection test.test", "code" : 20}解决办法就是在config库里面删除这个collection相关的信息,主要涉及
2017-08-30 21:14:57 3498
原创 spark-sql like查询
当时遇到使用两个表,需要用到like的时候,建议使用map side join或者使用spark sql的broad cast joinsqlContext.sql( """ |select * from left A,right B where A.url like contact(B.url,'%') """.stripMargin) val importantBroad =
2017-08-27 14:53:47 8237
原创 spark-sql not in 优化
spark-sql支持not in val conf = new SparkConf().setAppName("spark_sql").setMaster("local[2]") val sc = SparkContext.getOrCreate(conf) val pathes = Array("","","") val sqlContext = new SQLCon
2017-08-27 14:23:33 3831
转载 java 获取kafka offsets(偏移量)
public KafkaInfoClient(){ init(); } public Map<Integer,Long> getEarliestOffset(String topic) { //kafka.api.OffsetRequest.EarliestTime() = -2 return getTopicOffset(topic,k
2017-08-27 14:08:05 10503 2
原创 spark streaming读取kafka 零丢失(三)
方式二: 方法二就是每次streaming 消费了kafka的数据后,将消费的kafka offsets更新到zookeeper。当你的程序挂掉或者升级的时候,就可以接着上次的读取,实现数据的令丢失和 at most once。而且使用checkpoint的方式可能会导致数据重复消费,spark streaming维护的offset和zookeeper维护的偏移量不同步导致数据丢失或者重复消费等。
2017-08-27 14:01:26 481
原创 spark streaming读取kafka数据令丢失(二)
方式二: 方法二就是每次streaming 消费了kafka的数据后,将消费的kafka offsets更新到zookeeper。当你的程序挂掉或者升级的时候,就可以接着上次的读取,实现数据的令丢失和 at most once。而且使用checkpoint的方式可能会导致数据重复消费,spark streaming维护的offset和zookeeper维护的偏移量不同步导致数据丢失或者重复消费等。
2017-08-27 13:58:28 1353
原创 spark-streaming 读取kafka数据不丢失(一)
spark streaming 读取kafka的时候,数据丢失是一个很大的问题,streaming 通过direct方式读取kafka,提供了checkpoint方式去自己维护读取kafka的offset,将数据放到hdfs。 方式: def main(args: Array[String]) { def func(): StreamingContext ={ val conf
2017-08-27 13:56:31 800
原创 spark-streaming 读取kafka的方式
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。 一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。recei
2017-08-27 13:19:48 385
原创 java 正则去除中文标点符号
在作文本分析,尤其是分词的时候,我们需要把不需要的标点符号去除,防止在词转向量的时候,把中文符号添加进去。"[\\pP+~$`^=|<>~`$^+=|<>¥×]""[\\p{P}+~$`^=|<>~`$^+=|<>¥×]"我使用的是ansj分词器,其5.x版本有提供Recognition接口,用于在分词的时候剔除不需要的,比如剔除停用词、标点符号,根据词性剔除一批词,也支持正则表达式,很强大。
2017-08-20 11:03:38 3695
原创 kafka各版本差异
kafka-0.8.2 新特性 producer不再区分同步(sync)和异步方式(async),所有的请求以异步方式发送,这样提升了客户端效率。producer请求会返回一个应答对象,包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节点,因而可以减少server端资源的开销。新的producer和所有的服务器网络通信都是异步地,在ack=-1模式下需要等待所有的re
2017-08-04 15:42:41 3973
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人