- 博客(56)
- 资源 (20)
- 问答 (1)
- 收藏
- 关注
原创 java线程全面讲解
线程的使用在开发中可以说是无处不在,场景特别多;当然也是很难控制的。当然你要玩的好,也是很好的。简单的讲,线程本质上不能加快程序的运行(当然多cpu的机器例外了),只不过优化时间调度而已,在我们看来整体上快了点;但搞不好由于在线程间的切换消耗太多精力导致整个程序运行效率降低也很有可能,所以为何多线程的情况下就要不断尝试,找到最优线程数,也就是这个道理了。不过多线程运行有一个明显的好处啦(不管程
2017-09-15 10:42:26 413 1
原创 hadoop之eclipse插件
1、下载hadoop对应hadoop-eclipse-plugin(版本一定要对应),也可以自己编译,但一般网上都有对应的版本2、将hadoop-eclipse-plugin放到eclipse\plugins目录下,重启eclipse(这里需要注意一点:并不是所有版本eclipse都能安装成功,有些版本确实不兼容,我就受过这样的气;推荐一个版本:indigo,下载地址:http://www
2017-09-15 10:40:22 1113
原创 guava
最近花了点时间看了下com.google.guava里面的Guava的API,感觉有些确实比common有些工具好用,也简便。对于里面常用的工具做一个笔记方便以后自己查看(后面会继续)package cn.gov.zcy.admin; import com.google.common.base.Function; import com.google.common
2017-09-15 10:35:58 920
原创 git 命令整理
配置目录:.git/config用户:$ git config --global user.name "John Doe"$ git config --global user.email johndoe@example.com$ git config --list$ git config user.name查看忽略文件cat .gitignore暂存$ git stash : 暂
2017-05-08 10:37:23 375
原创 Lamdba java8 函数式开发简单汇总
package aliyun_java_sdk.aliyun_java_sdk;import com.beust.jcommander.internal.Lists;import org.junit.Test;import java.util.*;import java.util.function.Function;import java.util.function.Predicat
2017-04-26 21:11:59 1066
原创 com.google.guava工具(1)
最近花了点时间看了下com.google.guava里面的Guava的API,对于里面常用的工具做一个笔记方便以后自己查看(后面会继续)package cn.gov.zcy.admin;import com.google.common.base.Function;import com.google.common.base.Optional;import com.google.common.
2016-07-15 13:11:45 4612 1
原创 hadoop之eclipse插件
1、下载hadoop对应hadoop-eclipse-plugin(版本一定要对应),也可以自己编译,但一般网上都有对应的版本2、将hadoop-eclipse-plugin放到eclipse\plugins目录下,重启eclipse(这里需要注意一点:并不是所有版本eclipse都能安装成功,有些版本确实不兼容,我就受过这样的气;推荐一个版本:indigo,下载地址:http://www
2016-01-12 16:20:51 797
原创 hadoop2集群搭建
本地装了3个虚拟机,作为hadoop的三个节点(namenode,datanode1,datanode2)1、首先配置三台虚拟机的静态Ip,相关操作可以查看:http://blog.csdn.net/u013035314/article/details/466627812、安装jdk现在虚拟机一般都自己已经装好了默认jdk,首先将其卸载(1)先查看默认jdk:rpm -qa | g
2016-01-05 20:05:07 498
原创 Kmean算法
Kmeans算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。Kmeans算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为K个类别,算法描述如下:(1)适当选择K个聚类的初始中心;(2)在第K次迭代中,对任意一个样本,求其到K个中心的距离,将该样本归到距离
2016-01-04 15:11:10 1840
原创 java线程的全面讲解
线程的使用在开发中可以说是无处不在,场景特别多;当然也是很难控制的。当然你要玩的好,也是很好的。简单的讲,线程本质上不能加快程序的运行(当然多cpu的机器例外了),只不过优化时间调度而已,在我们看来整体上快了点;但搞不好由于在线程间的切换消耗太多精力导致整个程序运行效率降低也很有可能,所以为何多线程的情况下就要不断尝试,找到最优线程数,也就是这个道理了。不过多线程运行有一个明显的好处啦(不管程序是变快了还是变慢了),那就是对于用户来说,减少对用户的等待时间,不然单线程跑任务,用户可能面对的就是一个时刻“卡
2015-12-30 14:02:31 1185
原创 Aho-Corasick算法
Aho-Corasick Algorithm 简称简称AC算法,通过将模式串预处理为确定有限状态自动机,扫描文本一遍就能结束。其复杂度为O(n),即与模式串的数量和长度无关;与其相当的就是Wu-Manber algorithm了(由吳昇博士跟UdiManber所提出)。AC算法的主要思想就是构造的有限状态自动机,根据有限状态自动机会根据输入进行模式串匹配。有限状态自动机会随着字符的输入而发
2015-12-28 16:04:29 1977
原创 Levenshtein Distance算法(java实现)
所谓Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,操作包括一切你使用的手段将一个字符串转换成另一个字符串,比如插入一个字符、删除一个字符..等等;操作次数越少,说明两个字符串距离Levenshtein Distance越小,表示两个字符串越想似。应用最广泛的的当然就是DNA序列比对了。此处算法思想用一个“代价表”表示(我这里这么称呼,因为比对过程中产
2015-12-17 14:09:26 6472
原创 BM算法(Boyer-Moore) (JAVA实现)
BM算法时间上也是O(M+N),而且可以跳着search,但不适合characterset太小的状况;BM算法主要涉及两个主要步骤:BadCharacter rule 和 Good Suffix rule,并且右后往前比对。1.建立字符表,坏字符规则(BadCharacter rule):思想:字符表中的每个字符在匹配的的规则字符串(pattern)是否出现过,若没有出现,
2015-12-14 23:43:08 6621
原创 KMP算法(Knuth-Morris-Pratt ),java实现KMP算法
KMP算法(Knuth-Morris-Pratt ),java实现KMP算法
2015-12-02 11:14:16 1101
转载 Kafka性能测试与详解
Kafka原理和集群测试Kafka的关键设计决策Kafka是一个消息系统,由LinkedIn贡献给Apache基金会,称为Apache的一个顶级项目。Kafka最初用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础。它具有可扩展、吞吐量大和可持久化等特征,以及非常好的分区、复制和容错特征。1). Kafka在设计之时为就将持久
2015-07-22 09:35:51 6546
原创 kafka集群搭建与api客户端创建
kafka集群搭建与api客户端创建,以前的消息队列(activeMQ)对于大数据吞吐率不行,但kafka很好的解决了此类问题,并且以集群的方式进行扩展,可谓相当强大
2015-07-03 16:27:05 1210
转载 kafka详细解读
一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kaf
2015-07-03 14:34:40 1135
原创 CentOS虚拟机设置静态ip
最近为了搭建hadoop集群环境,在自己的机器上安装了两台虚拟机进行模拟。这里将怎样设置静态ip做个介绍(这也是至关重要的一步)
2015-06-27 17:23:39 1023 1
原创 solrj实现增量索引
最近发现solrj实现增量索引确实有点麻烦,于是就查找源码,发现内部实现很容易,虽然增量索引需求用的不是很多(不覆盖以前的文档),但也花了很多时间,做个随笔吧。
2015-06-21 09:25:02 1769 1
原创 Elasticsearch集群搭建
最近发现搭建solr集群相对来说还是要比ES集群繁琐许多,并且ES在索引负载均衡、容错性等方面要比solr集群好很多(至少我是这么认为的)。因此将ES集群的搭建不走在这里简单描述下
2015-06-15 15:36:29 1369
原创 solr深分页,游标操作分页,解决性能问题
了解solr的setStart分页问题不能解决后续分页的性能问题,提供了游标操作,不仅能解决深度分页问题,还能提供一次性全部获取索引(虽然不推荐这么做)
2015-05-26 14:40:06 4815 1
深入理解Java虚拟机
2016-03-15
java消息服务
2015-03-12
dubbo consumer 配置多个group ,但容器只装载一个
2017-12-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人