- 博客(22)
- 资源 (57)
- 收藏
- 关注
转载 数据一致性-分区可用性-性能——多副本强同步数据库系统实现之我见
最近,@阿里正祥(阳老师)发了上面的一条微博,谁知一石激起千层浪,国内各路数据库领域的朋友在此条微博上发散出无数新的话题,争吵有之,激辩有之,抨击有之,不一而足。总体来说,大家重点关注其中的一点:在不使用共享存储的情况下,传统RDBMS(例如:Oracle/MySQL/PostgreSQL等),能否做到在主库出问题时的数据零丢失。这个话题被引爆之后,我们团队内部也经过了激烈的辩
2017-11-29 10:14:02 1478
转载 java中的快速失败(fail-fast)与安全失败(fail-safe)
在我们详细讨论这两种机制的区别之前,首先得先了解并发修改。1.什么是同步修改?当一个或多个线程正在遍历一个集合Collection,此时另一个线程修改了这个集合的内容(添加,删除或者修改)。这就是并发修改2.什么是 fail-fast 机制?fail-fast机制在遍历一个集合时,当集合结构被修改,会抛出Concurrent Modification Excepti
2017-11-27 20:09:41 633
原创 protobuf-java中的一些小技巧
1、json字符串和pb对象之间的转换:1)pom.xml<dependency> <groupId>com.google.protobuf</groupId> <artifactId>protobuf-java</artifactId> <version>2.5.0</version>
2017-11-25 14:25:45 5472
原创 flume使用hive stream写入到hive
1、hive中创建表:create table customers (id string, name string, email string, street_address string, company string)partitioned by (time string)clustered by (id) into 5 buckets stored as orclocation '
2017-11-24 09:58:42 2202
转载 Hive Streaming 追加 ORC 文件
1.概述 在存储业务数据的时候,随着业务的增长,Hive 表存储在 HDFS 的上的数据会随时间的增加而增加,而以 Text 文本格式存储在 HDFS 上,所消耗的容量资源巨大。那么,我们需要有一种方式来减少容量的成本。而在 Hive 中,有一种 ORC 文件格式可以极大的减少存储的容量成本。今天,笔者就为大家分享如何实现流式数据追加到 Hive ORC 表中。2.内容2
2017-11-24 09:43:17 1034
转载 Java API 读取Hive Orc文件
Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。在实际业务场景中,可能需要使用Java API,或者MapReduce读写Orc文件。本文先介绍使用Java API读取Hive Orc文件。在Hive中已有一张Orc格式存储的表lxw1234:该表有四个字段:url
2017-11-23 19:16:21 3890 1
转载 MapReduce 读取ORC格式文件
1、创建orc格式hive表:create table test_orc(name string,age int) stored as orc2、查看表结构:show create table test_orcCREATE TABLE `test_orc`( `name` string, `age` int)ROW FORMAT SERDE 'org.apache.ha
2017-11-23 18:39:30 5779
转载 Java API 写 Hive Orc文件
下面的代码将三行数据:张三,20李四,22王五,30写入HDFS上的/tmp/lxw1234/orcoutput/lxw1234.com.orc文件中。package com.lxw1234.test; import java.io.DataInput;import java.io.DataOutput;import java.io.IOExcept
2017-11-23 18:28:22 4614
原创 Storm 0.10.0新特性整理一览
1、安全性和多用户调度部署和早期的Hadoop相似,Storm被假设会部署到远离安全威胁的环境中,所以一开始并没有太多的考虑安全性问题。虽然大量用户对Storm都制定了他们自己的安全举措(通常实在防火墙/系统层次),然而这依旧阻碍了许多企业使用Storm。Yahoo!部署并持有世界上最大的Storm集群之一,他们的技术团队很早就意识到安全性的需要,所以Yahoo!采取了很多措施来保
2017-11-23 17:01:04 1592
转载 Storm 0.9.3的新特性
Storm 0.9.3的版本修改了100个Bug,改进了与Kafka的集成,并增加了与HDFS和HBase的集成。改进了与Kafka的集成Apache Storm从0.9.2-incubating版本开始支持Kafka作为流数据的数据源。0.9.3的版本在此基础上进行了几项改进,包括向一个或多个Kafka集群或topic写入数据。Storm现在既可以将Kafka作为流数据的数据源,
2017-11-23 16:28:49 450
原创 云计算、虚拟化、容器化杂谈
1、云计算概念:1)云计算是最近几年才兴起的概念,但是这样的需求其实早都有了,现阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算最基本的特性是
2017-11-20 18:56:52 4910
转载 服务熔断、降级、限流、异步RPC -- HyStrix
在今天,基于SOA的架构已经大行其道。伴随着架构的SOA化,相关联的服务熔断、降级、限流等思想,也在各种技术讲座中频繁出现。本文将结合Netflix开源的Hystrix框架,对这些思想做一个梳理。背景伴随着业务复杂性的提高,系统的不断拆分,一个面向用户端的API,其内部的RPC调用层层嵌套,调用链条可能会非常长。这会造成以下几个问题:API接口可用性降低引用Hyst
2017-11-20 15:12:37 1214
原创 客户端HttpClient4处理 Servlet Gzip后的内容
1、服务器端servlet代码:protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { response.setHeader("Cache-Control", "no-cache"); response.s
2017-11-16 14:42:18 1509
转载 HTTP协议详解——压缩问题
1、HTTP内容编码和HTTP压缩的区别:HTTP压缩,在HTTP协议中,其实是内容编码的一种。在http协议中,可以对内容(也就是body部分)进行编码, 可以采用gzip这样的编码。 从而达到压缩的目的。 也可以使用其他的编码把内容搅乱或加密,以此来防止未授权的第三方看到文档的内容。所以我们说HTTP压缩,其实就是HTTP内容编码的一种。 所以大家不要把HTTP压缩和HTTP内
2017-11-16 10:56:35 1437
原创 httpClient4发送gzip的post数据,servlet接收并解压
1、gzipUtils工具类:package nc.edu.nuc.utils;import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.IOException;import java.util.zip.GZIPInputStream;import java.uti
2017-11-15 21:03:37 6432
原创 es jar包冲突问题
es本身依赖了许多其他第三方包,在使用es-java api时,如果引用不当会造成jar包冲突无法使用。1、默认情况下, 使用es-java api,主需要引入如下的maven信息即可: org.elasticsearch elasticsearch 2.3.2 2、java.lang.NoSuchMethodError:com.
2017-11-14 17:02:37 2560 1
原创 elasticsearch基础知识以及创建索引
一、基础概念:1、索引:索引(index)是elasticsearch的一个逻辑存储,可以理解为关系型数据库中的数据库,es可以把索引数据存放到一台服务器上,也可以sharding后存到多台服务器上,每个索引有一个或多个分片,每个分片可以有多个副本。2、索引类型(index_type):在es中,一个索引对象可以存储多个不同用途的对象,通过索引类型(index_type)可以区分单
2017-11-13 17:12:14 78266 3
转载 PCA数学原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成
2017-11-13 11:15:32 396
原创 elasticsearch-java api中get() 和execute().actionGet()方法
我们平时使用api在进行各种操作的时候,如:query、document的增删改查等等,都会看到最后会调用.get()或者.execute().actionGet()方法。例如:IndexResponse actionGet = transportClient .prepareIndex(indexName, indexType) .setSource(data) .e
2017-11-04 16:29:47 8493
原创 elasticsearch-java api之client
Elasticsearch 的Java API 提供了非常便捷的方法来索引和查询数据等。 通过添加jar包,不需要编写HTTP层的代码就可以开始着手进行连接到Elasticsearch的工作。它提供了两种方法连接到Elasticsearch:创建一个本地节点并加入集群(cluster),或者利用传输(transport)。这两种方法都是利用一个Client(org.elasticsearch.cl
2017-11-04 16:18:57 1361
原创 hive 分区表使用的一些注意事项
hive 外表数据读取:1、hive非分区普通表:1)建立外表:CREATE EXTERNAL TABLE `test_liu`( `a` string, `b` string, `c` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS INPUTFORMAT '
2017-11-02 12:18:34 2435
macOS eclipse Launcher
2023-12-18
parquet-tools-1.6.0rc3.zip
2020-07-24
jQuery-Plugin-For-Easily-Readable-JSON-Data-Viewer.zip
2019-12-31
yesmeck-jquery-jsonview-v1.2.3-14-g01b1eb8.zip
2019-12-30
linux解析json工具——jq
2017-09-16
jquery 全屏显示插件
2015-03-20
apache-maven-3.2.3-bin
2014-10-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人