2017年07月_tao_wei162

原创 split("\\s+") 和 split(" +") 有什么区别

首先要明白split方法的参数含义：splitpublic String[] split(String regex)根据给定的正则表达式的匹配来拆分此字符串。然后就要明确正则表达式的含义了：\\s表示空格,回车,换行等空白符, +号表示一个或多个的意思,所以......

2017-07-31 12:56:44 290

原创 SQLServer 原理简单解析

(1) 客户端sqlserver网络接口通过一种网络协议(可以是共享内存：简单高速，客户端和sql server在同一台计算机默认连接方式；TCP/IP:访问sql server最常用的一种协议，客户端指定ip地址和端口号连接到sql server;命名管道：命名管道和TCP/IP协议在体系结构上是类似的，是为局域网设计的，在广域网中速度会慢一些；VIA:虚拟接口适配器，是一种可以让两个系统进行...

2017-07-26 12:58:53 339

原创 Cloudera的CDH和Apache的Hadoop的区别

目前而言，不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）、Cloudera版本（Cloudera’s Distribution Including Apache hadoop，简称CDH）、Hortonworks版本(Hortonworks Data Platform，简称“HDP”），对于国内而言，绝大多数选择CDH版...

2017-07-26 12:49:04 125

原创 CDH与原生态hadoop之间的区别

需要认识的几个问题---------------------------------------------------------------------------------------------------------------------------1.hadoop有几个版本？2.CDH有几种安装方式？3.CDH在安装认证方面做了什么改变？-----------------...

2017-07-26 12:45:48 422

原创 elasticsearch 的Merge

一个ES index 包含有多个sharding, sharding 主要用于分布式。一个sharding里面也可以包含多个segment. es 在indexing 的时候会产生很多的segments。 segments 太多会导致文件句柄浪费严重，并且搜索性能底下。 ES 自己也会去做merge, 算法和cassandra 的sizeTiered 算法类似（但稍逊一些）。合并后，sear...

2017-07-26 12:39:24 241

原创 maven项目在打war包时出现非法字符: '\ufeff' 解决方案

问题描述：开发工具MyEclipse 的总体开发环境，编码格式总体设置为UTF-8，在将web项目打包的时候出现：非法字符：'\ufeff" 错误。解决方案：利用notePad++打开出现错误的页面，选择标题栏的格式—-将以UTF-8格式编码修改成将以UTF-8 无BOM 格式编码。至此，问题解决。问题：需要为class interface 或enum }...

2017-07-26 12:32:05 498

原创 Some projects cannot be imported because they already exist in the workspace

1、Some projects cannot be imported because they already exist in the workspace 2、Some projects were hidden because they exist in the workspace directory 有时候eclipse或者myeclipse导入项目的时候会发生上面两个错误，IDE不允许我们...

2017-07-25 19:21:14 252

原创大数据、云计算系统高级架构师课程学习路线图

大数据、云计算系统高级架构师课程学习路线图大数据之Linux+大数据开发篇Java Linux基础 Shell编程 Hadoop2.x HDFS YARN MapReduce ETL数据清洗 Hive Sqoop Flume/Oozieo 大数据WEB工具Hue HBase Storm Storm Scala Spark Spark核心源码剖析 CM 5.3.x管理 CDH 5...

2017-07-24 17:10:23 897 1

原创 Elasticsearch与Solr

搜索引擎选型调研文档 Elasticsearch简介*Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索，结构化搜索以及分析，当然你也可以将这三者进行组合。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能...

2017-07-24 16:39:25 71

原创 GreenPlum常用数据类型

1、数值类型：2、字符类型：3、时间类型：

2017-07-24 15:26:44 6209

原创 Oozie简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。本文中，我们会向你介绍Oozie以及使用它的一些方式。什么是Oozie？Oozie是一种Java Web应用程序，它运行在Jav...

2017-07-24 12:17:02 106

原创清理ambari安装的hadoop集群

本文针对redhat或者centos对于测试集群，如果通过ambari安装Hadoop集群后，想重新再来一次的话，需要清理集群。对于安装了很多hadoop组件的话，这个工作很繁琐。接下来是我整理的清理过程。1，通过ambari将集群中的所用组件都关闭，如果关闭不了，直接kill -9 XXX2，关闭ambari-server，ambari-agent [plai...

2017-07-24 11:29:14 216

原创 Json与List的相互转换

问题由来：最近由于做一个项目，项目的一个功能就是根据Listview的内容生成一个二维码，然后扫描二维码获取list，再重新显示listview。核心就是: list—->生成二维码——>获取二维码—–>获取list生成二维码的方法：http://blog.csdn.net/demonliuhui/article/details/52948696由于生...

2017-07-22 13:16:29 466 1

原创 Webhook是什么

Webhook就是用户通过自定义回调函数的方式来改变Web应用的一种行为，这些回调函数可以由不是该Web应用官方的第三方用户或者开发人员来维护，修改。通过Webhook，你可以自定义一些行为通知到指定的URL去。Webhook的“自定义回调函数”通常是由一些事件触发的，比如推送代码到代码库或者博客下新增一个评论，源站点会为Webhook进行HTTP请求的URI配置。用户通过配置，就可以使一个网站...

2017-07-21 18:20:02 320

原创计算机网络协议有哪些

应用层　　·DHCP(动态主机分配协议) 　　· DNS (域名解析）　　· FTP（File Transfer Protocol）文件传输协议　　· Gopher （英文原义：The Internet Gopher Protocol 中文释义：（RFC-1436）网际Gopher协议）　　· HTTP （Hypertext Transfer Protocol）超文本传输协议　　· IMA...

2017-07-21 14:48:06 336

原创针对不同数据库，获取当前用户所有有权限查看的表，以及表的创建时间、更新时间、注释等信息，表中字段的相关信息(包含分页实现)...

最近在处理一个需求，需求是这样的：给定任意一个数据库的JDBC连接、用户名、密码查询出所有有权限访问的表的相关信息：表名，创建时间，更新时间，注释要支持分页数据库类型有：MySQL、GBase、Oracle、DB2、Greenplum、Hive本来还有 HDFS和Kafka的，但是后来去掉了。我自己平时主要使用的是 MySQL，所以，对于 mysql 而言，这个需求...

2017-07-21 14:32:20 637

原创 RabbitMq、ActiveMq、ZeroMq、kafka之间的比较,资料汇总

MQ框架非常之多，比较流行的有RabbitMq、ActiveMq、ZeroMq、kafka。这几种MQ到底应该选择哪个？要根据自己项目的业务场景和需求。下面我列出这些MQ之间的对比数据和资料。第一部分：RabbitMQ,ActiveMq,ZeroMq比较1、 TPS比较一ZeroMq 最好，RabbitMq 次之， ActiveMq 最差。这个结论来自于以下这篇文章。ht...

2017-07-21 14:21:32 83

原创 MySQL字段自增长AUTO_INCREMENT的学习笔记

1、创建表时指定AUTO_INCREMENT自增值的初始值（即起始值）:?1CREATE TABLE XXX (ID INT(5) PRIMARY KEY AUTO_INCREMENT) AUTO_INCREMENT=100;2、通过 ALTER TABLE 修改初始值（但是要大于表中的 AUTO_INCREMENT 自增值，否则设...

2017-07-21 14:21:14 161

原创 Spring JdbcTemplate详解

JdbcTemplate简介　　Spring对数据库的操作在jdbc上面做了深层次的封装，使用spring的注入功能，可以把DataSource注册到JdbcTemplate之中。　　JdbcTemplate位于中。其全限定命名为org.springframework.jdbc.core.JdbcTemplate。要使用JdbcTemlate还需一个这个包包含了一下事务和异常控制　　...

2017-07-19 16:12:10 85

原创 gp学习1

gp加可自增长的列ALTER TABLE school_info ADD COLUMN dataId serial;select * from school_info where "ID" <100 order by "ID" asc;gp的配置信息select * from gp_segment_configuration ;gp数据的所有表的信息select ...

2017-07-19 12:51:20 254

原创硬盘类型

SSD是用FLASH做存储介质，加上SATA接口（也能采用PCI-E接口）能发挥出FLASH的速度优势，同时采用多通道技术，速度更快，能达到400--500MS/s的样子。普通硬盘受转速限制，速度最快也就9000转每分吧，速度不是很快，貌似理想极限速度100MB/s左右，具体的忘了SATA3是接口标准，能提供高达6Gbps存取速度，但是一般达不到。现在的SSD一般采用SATA3.0接口，最快也...

2017-07-18 20:42:36 149

原创 GreenPlum数据库修改表的OWNER、插入空值数据及常用数据类型

在一次建表时，使用了错误的用户，把表建在了gpadmin用户下，虽然GreenPlum数据库在对表操作的时候主要用的是SCHEMA而不是用户，但是涉及到权限的问题，还是绝对修改表的OWNER。在ORACLE数据库中，是不支持直接修改表的OWNER的，但是GreenPlum数据库是支持的。GreenPlum数据库中SCHEMA和OWNER的关系，通过下面的信息即可很直观的看出。vie...

2017-07-18 19:21:56 2086

原创数据库的最大表，字段，库的个数

SQLserver能创建的元素上限数如下：用户数据库最多32767个，文件组最多256个/库，文件最多32767/库，字段（列）1024个/表。DB21. 一個表的最大列數<=1012 2. 一個視圖的最大列數<=5000 3. 一行的最大長度(字節)<=32677 4. 每個分區中表的最大尺寸(千兆字節數)<=512 5. 每個分區中索引的最大尺寸(千兆字...

2017-07-14 16:36:14 898

原创说话技巧

1.胆大，2.心里不慌 3.说话要有语速这里实际是要解决两个问题：1，说话不得罪人。2，口才出众。前一个好解决，后一个慢幔来。一，首先说怎么说话不得罪人：1，表扬自已的高明，只对领导或下属说，不要跟一般同事说。2，少议论身边的人，多议论公众人物、影视明星，说得再得罪人，他也听不到。3，多表扬、少批评别人。特别是，人所共知的、别人难改的、有关隐私的缺点，不能说。4，必须批评别人也要有...

2017-07-14 15:56:32 760

原创工作优秀实例

1.sql去最小值：1.用函数min（） 2.用order by 效果是不一样的

2017-07-14 12:46:09 123

原创 elasticsearch 搜索结果的扫描 scan和滚动 scroll

scan 搜索类型和 scroll API 会一起用来从 elasticsearch 中获得大量文档，不会受到深度分页（deep pagination）的影响。scroll 滚动搜索允许我们进行一个初始搜索并保证批量从 Elasticsearch 中拉取结果直到没有更多结果。这看起来有点像传统数据库中的 cursor。滚动搜索会及时取一个快照。这不会受到后来对索引的改变的影响。...

2017-07-13 14:15:14 713

原创 ElasticSearch入门 —— 集群搭建

一、环境介绍与安装准备 1、环境说明 2台虚拟机，OS为ubuntu13.04，ip分别为xxx.xxx.xxx.140和xxx.xxx.xxx.145。 2、安装准备 ElasticSearch（简称ES）由java语言实现，运行环境依赖java。ES 1.x版本，官方推荐至少使用jdk1.6的环境，建议使用oracle java，可以去...

2017-07-13 14:06:42 70

原创 elasticsearch 缓存配置

缓存索引有不同的内置缓存模块。它们包括过滤器（filter）, 字段（field）和其它。过滤器缓存过滤器缓存负责缓存过滤后的结果(在查询中使用)。默认实现过滤器缓存(和一个推荐使用在几乎所有的情况下) 的是节点过滤器缓存类型。节点过滤器缓存这个节点过滤器缓存可以被配置为使用总内存的一定比例分配给进程或一个指定数量的内存。所有的索引分片只能出现在一个节点共享一个单一的节点缓存(...

2017-07-13 13:37:16 2028

原创 cmd命令下修改一个文件或文件夹的名称

cmd命令下修改一个文件或文件夹的名称ren 原文件名新文件名假如想把123.txt改成456.txt就输入下面的命令回车就可以了ren 123.txt 456.txt注意要先用CD命令进入文件所在的文件夹，否则文件名要带上路径...

2017-07-13 10:39:56 11132

原创开源离线同步工具 DataX3.0 介绍

一. DataX3.0概览DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候...

2017-07-13 10:12:41 161

原创 java中的json转化

json在线翻译工具：http://www.bejson.com/jsoneditoronline/ 第一种：首先要下载所需的函数库，我这里使用的是google-gson-2.2.4，（下载链接：http://download.csdn.net/detail/a771948524/6668573）。下载完成之后，在项目上新建一个lib文件，把下载文件复制进去，右键选择添加至构建...

2017-07-12 11:06:09 132

原创 heap和stack的不同

1.heap是堆，stack是栈。2.stack的空间由操作系统自动分配和释放，heap的空间是手动申请和释放的，heap常用new关键字来分配。3.stack空间有限，heap的空间是很大的自由区。在Java中，若只是声明一个对象，则先在栈内存中为其分配地址空间，若再new一下，实例化它，则在堆内存中为其分配地址。4.举例：数据类型变量名；这样定义的东西在栈区。如：Object a =nu

2017-07-07 11:06:21 119

原创 heap和stack有什么区别

1.heap是堆，stack是栈。2.stack的空间由操作系统自动分配和释放，heap的空间是手动申请和释放的，heap常用new关键字来分配。3.stack空间有限，heap的空间是很大的自由区。在Java中，若只是声明一个对象，则先在栈内存中为其分配地址空间，若再new一下，实例化它，则在堆内存中为其分配地址。4.举例：数据类型变量名；这样定义的东西在栈区。如：Object a =null...

2017-07-07 09:42:03 85

原创 es的配置文件（elasticsearch.yml）

config目录下有2个配置文件：es的配置文件（elasticsearch.yml）和日志配置文件（logging.yml ）cluster.name: elasticsearch配置es的集群名称，默认是elasticsearch，es会自动发现在同一网段下的es，如果在同一网段下有多个集群，就可以用这个属性来区分不同的集群。 node.name: "Franz Kafka"...

2017-07-07 09:39:56 2990

原创 Linux中tail与cat的区别

一、tail功能：显示指定文件的后若干行。语法：tail [+ / - num ] [参数] 文件tail命令中各个选项的含义为：＋num 从第num行以后开始显示。- num 从距文件尾num行处开始显示。如果省略num参数，系统默认值为10。 l 以文本行为num的计数单位。与参数选项＋num或- num选项同时使用时，num表示要显示的文本行行数。c 以字节为num的计数单位。与参数...

2017-07-07 09:39:38 2963

原创 linux使用grep和find查找内容

1，在某个路径下查文件。在/etc下查找“*.log”的文件find /etc -name “*.log”2，扩展，列出某个路径下所有文件，包括子目录。find /etc -name “*”3，在某个路径下查找所有包含“hello abcserver”字符串的文件。find /etc -name “*” | xargs grep “hello abcserver”或...

2017-07-07 09:39:25 154

原创 Elasticsearch内存分配设置详解

Elasticsearch默认安装后设置的内存是1GB，对于任何一个现实业务来说，这个设置都太小了。如果你正在使用这个默认堆内存配置，你的集群配置可能会很快发生问题。这里有两种方式修改Elasticsearch的堆内存（下面就说内存好了），最简单的一个方法就是指定ES_HEAP_SIZE环境变量。服务进程在启动时候会读取这个变量，并相应的设置堆的大小。设置命令如下：export ES_H...

2017-07-07 09:34:29 1048

原创梳理es中的几个概念

cluster 代表一个集群，集群中有多个节点。其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。 es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的。因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。 shards 代表索引分片，es可以把一个完整的索引分成多个分片。这样的好处是可以把一个...

2017-07-06 19:39:57 495

原创应该雇用一名老程序员

你真的应该雇用一名老程序员。这一点我深信不疑。这些资历比较老的程序员不会像那些刚从大学里面毕业的学生那样工作那么多时间。他们有孩子、配偶，需要还房贷，有机会还要去看一场比赛。他们不会在办公室里通宵玩Xbox和乒乓球，也不会每周工作80个小时，实际上他们会利用他们的假期。当然，他们的工资比年轻程序员要高。不管有多少种理由会说雇佣老程序员有哪些不好的地方，但是你仍然需要一名。原因很简单:他们就像巴黎欧...

2017-07-06 17:13:52 96

原创 Redis-cli命令最新总结

连接操作相关的命令默认直接连接远程连接-h 192.168.1.20 -p 6379ping：测试连接是否存活如果正常会返回pongecho：打印select：切换到指定的数据库，数据库索引号 index 用数字值指定，以 0 作为起始索引值quit：关闭连接（connection）auth：简单密码认证服务端相关命令time：返回当前服务器时间cl...

2017-07-06 16:43:44 66

空空如也

空空如也