自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (3)
  • 收藏
  • 关注

原创 mongodb 分片集群 删除片键 code : 20 sharding already enabled for collection

mongodb分片集群指定片键删除了一个collection,再次为这个collection创建片键的时候,会报错{ "ok" : 0, "errmsg" : "sharding already enabled for collection test.test", "code" : 20}解决办法就是在config库里面删除这个collection相关的信息,主要涉及

2017-08-30 21:14:57 3498

原创 spark-sql like查询

当时遇到使用两个表,需要用到like的时候,建议使用map side join或者使用spark sql的broad cast joinsqlContext.sql( """ |select * from left A,right B where A.url like contact(B.url,'%') """.stripMargin) val importantBroad =

2017-08-27 14:53:47 8237

原创 spark-sql not in 优化

spark-sql支持not in val conf = new SparkConf().setAppName("spark_sql").setMaster("local[2]") val sc = SparkContext.getOrCreate(conf) val pathes = Array("","","") val sqlContext = new SQLCon

2017-08-27 14:23:33 3831

转载 java 获取kafka offsets(偏移量)

public KafkaInfoClient(){ init(); } public Map<Integer,Long> getEarliestOffset(String topic) { //kafka.api.OffsetRequest.EarliestTime() = -2 return getTopicOffset(topic,k

2017-08-27 14:08:05 10503 2

原创 spark streaming读取kafka 零丢失(三)

方式二: 方法二就是每次streaming 消费了kafka的数据后,将消费的kafka offsets更新到zookeeper。当你的程序挂掉或者升级的时候,就可以接着上次的读取,实现数据的令丢失和 at most once。而且使用checkpoint的方式可能会导致数据重复消费,spark streaming维护的offset和zookeeper维护的偏移量不同步导致数据丢失或者重复消费等。

2017-08-27 14:01:26 481

原创 spark streaming读取kafka数据令丢失(二)

方式二: 方法二就是每次streaming 消费了kafka的数据后,将消费的kafka offsets更新到zookeeper。当你的程序挂掉或者升级的时候,就可以接着上次的读取,实现数据的令丢失和 at most once。而且使用checkpoint的方式可能会导致数据重复消费,spark streaming维护的offset和zookeeper维护的偏移量不同步导致数据丢失或者重复消费等。

2017-08-27 13:58:28 1353

原创 spark-streaming 读取kafka数据不丢失(一)

spark streaming 读取kafka的时候,数据丢失是一个很大的问题,streaming 通过direct方式读取kafka,提供了checkpoint方式去自己维护读取kafka的offset,将数据放到hdfs。 方式: def main(args: Array[String]) { def func(): StreamingContext ={ val conf

2017-08-27 13:56:31 800

原创 spark-streaming 读取kafka的方式

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。 一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。recei

2017-08-27 13:19:48 385

原创 java 正则去除中文标点符号

在作文本分析,尤其是分词的时候,我们需要把不需要的标点符号去除,防止在词转向量的时候,把中文符号添加进去。"[\\pP+~$`^=|<>~`$^+=|<>¥×]""[\\p{P}+~$`^=|<>~`$^+=|<>¥×]"我使用的是ansj分词器,其5.x版本有提供Recognition接口,用于在分词的时候剔除不需要的,比如剔除停用词、标点符号,根据词性剔除一批词,也支持正则表达式,很强大。

2017-08-20 11:03:38 3695

原创 kafka各版本差异

kafka-0.8.2 新特性   producer不再区分同步(sync)和异步方式(async),所有的请求以异步方式发送,这样提升了客户端效率。producer请求会返回一个应答对象,包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节点,因而可以减少server端资源的开销。新的producer和所有的服务器网络通信都是异步地,在ack=-1模式下需要等待所有的re

2017-08-04 15:42:41 3973

基于C++的定时关机的实现

基于C++的定时关机的实现

2015-03-30

C++实现的简单投票系统

基于C++实现的简单的投票系统 基于C++实现的简单的投票系统 代码简单易懂 希望能够给大家提供学习的资料

2015-03-30

VC显示行号

VC++6.0 编译器  显示行号的插件

2015-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除