2018年06月_有梦想的人不睡觉121

12月 11月 10月 09月 08月 07月 06月

原创机器学习入门知识

什么事机器学习？我们会发现这里涉及很多基于经验做出的预判.例如，为什么看到微温路面、感到和风、看到晚霞，就认为明天是好天呢?这是因为在我们的生活经验中已经遇见过很多类似情况，头一天观察到上述特征后，第二天天气通常会很好。为什么色泽青绿、根蒂蜷缩、敲声浊晌，就能判断出是正熟的好瓜?因为我们吃过、看过很多西瓜，所以基于色泽、根蒂、敲声这几个特征我们就可以做出相当好的判断.类似的，我们从以往的...

2018-06-29 17:35:53 6827 1

原创 Hbase自定义过滤器

import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.filter.Filter;import org.apache.hadoop.hbase.f...

2018-06-29 17:01:31 6665

原创 Hbase-Filter算子大全

public static void ValueFilterExam() throws Exception{ Configuration config = HBaseConfiguration.create(); config.set("hbase.zookeeper.quorum","node2"); config.set("hbase.zooke...

2018-06-29 16:59:01 6351

原创大数据与kafka系列之Produce源码分析(三)

上篇说了kafka produce过程中的分区和拦截器，这节继续。 int partition = partition(record, serializedKey, serializedValue, cluster); int serializedSize = Records.LOG_OVERHEAD + Record.recordSize(serializedKey, serial...

2018-06-28 19:42:29 6436

原文地址：https://cloud.tencent.com/developer/article/1006044四、RegionServer的故障恢复我们知道，RegionServer的相关信息保存在ZK中，在RegionServer启动的时候，会在Zookeeper中创建对应的临时节点。RegionServer通过Socket和Zookeeper建立session会话，RegionServer会...

2018-06-28 09:51:27 6036

转载 Hbase 技术细节笔记（上）

原文地址：https://cloud.tencent.com/developer/article/1006043前言最近在跟进Hbase的相关工作，由于之前对Hbase并不怎么了解，因此系统地学习了下Hbase，为了加深对Hbase的理解，对相关知识点做了笔记，并在组内进行了Hbase相关技术的分享，由于Hbase涵盖的内容比较多，因此计划分享2期，下面就是针对第一期Hbase技术分享整体而成，第...

2018-06-28 09:46:11 6201

转载基于redis(key分段,避免一个key过大) 和db实现的布隆过滤器（解决hash碰撞问题）

原文地址：https://yq.aliyun.com/articles/167466摘要：基于redis(key分段,避免一个key过大) 和db实现的布隆过滤器（解决hash碰撞问题）1.计算出key的哈希值。根据hash值和固定段大小取模计算出偏移位offset。根据固定前置+hash值／固定段大小计算出所处段的bitKey。根据bitKey和offset判断是否存在。如果存在然后调用co...

2018-06-27 19:12:01 7452

转载深入理解Spark ML：基于ALS矩阵分解的协同过滤算法与源码分析

原文地址：https://blog.csdn.net/u011239443/article/details/517529041. 引言随着互联网的迅猛发展,为了满足人们在繁多的信息中获取自己需要内容的需求,个性化推荐应用而生。协同过滤推荐是其中运用最为成功的技术之一。其中,基于用户的最近邻法根据相似用户的评分来预测当前用户的评分。然而,在用户数量以及用户评分不足的情况下,该方法存在冷启动和数据稀疏...

2018-06-27 18:50:54 6808

转载 hbase源码系列（一）Balancer 负载均衡

原文地址：https://www.cnblogs.com/cenyuhai/p/3650943.html看源码很久了，终于开始动手写博客了，为什么是先写负载均衡呢，因为一个室友入职新公司了，然后他们遇到这方面的问题，某些机器的硬盘使用明显比别的机器要多，每次用hadoop做完负载均衡，很快又变回来了。　　首先我们先看HMaster当中怎么初始化Balancer的，把集群的状态穿进去，设置maste...

2018-06-27 16:49:26 6115

转载 HBase 数据迁移

原文地址：https://utf7.github.io/2018/01/13/hbase-data-migration/本文介绍 HBase 常见的适合大数据量的迁移方法:DISTCP、SNAPSHOT1、DSTCP+FIX 元数据信息2、SNAPSHOT快照导出迁移DISTCP迁移DISTCP的思路是，直接通过DISTCP拷贝HBase 的目录文件到目标集群，然后在目标集群通过hbase提供的h...

2018-06-27 09:08:35 6865

转载调优Apache Kafka集群

原文地址：http://www.cnblogs.com/huxi2b/p/6936348.html今天带来一篇译文“调优Apache Kafka集群”，里面有一些观点并无太多新颖之处，但总结得还算详细。该文从四个不同的目标出发给出了各自不同的参数配置，值得大家一读~ 原文地址请参考：https://www.confluent.io/blog/optimizing-apache-kafka-depl...

2018-06-26 16:36:07 6201

转载大数据量下的集合过滤—Bloom Filter

原文地址：https://www.cnblogs.com/z941030/p/9218356.html算法背景如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来，然后通过比较确定。链表、树、散列表（又叫哈希表，Hash table）等等数据结构都是这种思路，存储位置要么是磁盘，要么是内存。很多时候要么是以时间换空间，要么是以空间换时间。在响应时间要求比较严格的情况下，如果我...

2018-06-26 16:33:59 9176

原创大数据与kafka系列之Produce源码分析(二)

上篇文章主要讲解了produce源码中元数据更新相关内容，本次主要讲解produce的分区和拦截器。private Future<RecordMetadata> doSend(ProducerRecord<K, V> record, Callback callback) { TopicPartition tp = null; try { ...

2018-06-26 15:43:56 6351

转载 HBase的RowKey设计原则

HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：通过get方式，指定rowkey获取唯一一条记录通过scan方式，设置startRow和stopRow参数进行...

2018-06-26 09:46:03 5998

转载高手如何实践HBase？不容错过的滴滴内部技巧

原文地址：https://yq.aliyun.com/articles/601722?utm_content=m_1000001132摘要： HBase和Phoenix的优势大家众所周知，想要落地实践却问题一堆？replication的随机发送、Connection的管理是否让你头痛不已？本次分享中，滴滴以典型的应用场景带大家深入探究HBase和Phoenix，并分享内核改进措施。摘要： HBas...

2018-06-25 17:14:16 6364

原创大数据与kafka系列之Produce源码分析(一)

首先一个普通的produce代码如下： final String kafkazk="localhost:9092"; String topic="testAPI"; Properties properties = new Properties() {{ put(ProducerConfig.BOOTSTRAP_SERVERS_...

2018-06-25 15:14:32 6468 1

转载 Flink 原理与实现：理解 Flink 中的计算资源

原文地址 https://yq.aliyun.com/articles/64819摘要：本文所讨论的计算资源是指用来执行 Task 的资源，是一个逻辑概念。本文会介绍 Flink 计算资源相关的一些核心概念，如：Slot、SlotSharingGroup、CoLocationGroup、Chain等。并会着重讨论 Flink 如何对计算资源进行管理和隔离，如何将计算资源利用率最大化等等。理解...

2018-06-22 09:15:51 10373

原创大数据与Kafka系列之kafka消费者各种启动参数说明

建立一个普通的消费者。public static void CommonDemo() { final Properties properties = new Properties() {{ put("bootstrap.servers", "localhost:9092"); put("group.id", "testAPIdemo"...

2018-06-21 14:10:20 12200

原创大数据与Kafka系列之kafka生产者各种启动参数说明

首先是启动一个生产者， final String kafkazk="localhost:9092"; String topic="testAPI"; Properties properties = new Properties() {{ put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, kafkazk); ...

2018-06-20 14:04:50 12400

原创大数据与Kafka系列之你所不知道的ConsumerAPI

普通的APIpublic static void CommonDemo() { final Properties properties = new Properties() {{ put("bootstrap.servers", "localhost:9092"); put("group.id", "test"); ...

2018-06-19 13:43:25 6455

原创大数据与Hadoop系列之分布式文件系统（二）

Linux文件系统前面介绍了文件系统的基本原理，本文通过Linux文件系统进一步深入分析文件系统的具体设计方法。 Linux的本地文件系统包括：Ext2 (Second Extended Filesystem,第二扩展文件系统）Ext3 (ThirdExtended Filesystem,第三扩展文件系统）它们是UNIX文件系统的一种快速、稳定的实现。同时，为了支持多种类文件系统，如网络文件系统、...

2018-06-15 10:01:03 5831

原创大数据与Hadoop系列之分布式文件系统（一）

文件系统早在 1965 年开发的 Multies ( UNIX 的前身）就详细地设计了文件系统，这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信．息的长期存储，并达到如下要求：1.能够存储大量的信息。2.使用信息的应用终止时，信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法，是把信息以一种单元，即"文件" ( file)的形式存储在磁盘或者其他...

2018-06-14 10:51:51 11001 1

转载 Map 综述（二）：彻头彻尾理解 LinkedHashMap

转自https://blog.csdn.net/justloveyou_/article/details/71713781摘要：　　HashMap和双向链表合二为一即是LinkedHashMap。所谓LinkedHashMap，其落脚点在HashMap，因此更准确地说，它是一个将所有Entry节点链入一个双向链表的HashMap。由于LinkedHashMap是HashMap的子类，所以Linke...

2018-06-12 14:22:25 5979

原创大数据与Hadoop系列之压缩（二）

压缩流和解压缩流Java最初版本的输入/输出系统是基于流的，流抽象了任何有能力产出数据的数据源，或者是有行能力接收数据的接收端。一般来说，通过设计模式装饰，可以为流添加一些额外的功能，如前面提及的序列化流ObjectInutStream和ObjectOutputStream。压缩流（CompressionOutputStream)和解压缩流(CompressioninputStream)是Hado...

2018-06-12 10:37:15 6079

原创大数据与Hadoop系列之压缩(一)

Hadoop压缩简介Hadoop作为一个较通用的海量数椐处理平台，在使用压缩方式方面，主要考虑压缩速度和压缩文件的可分割性.所有的压缩算法都会考虑时间和空间的权衡，更快的压缩和解压缩速度通常会耗费更多的交间（压缩比较低）例如：通过gzip命令压缩数据时，用户可以设置不同的选项来选择速度优先或空间优先.选项-1表示优先考虑速度，选项-9表示空间最优，可以获得最大的压缩比。需要注意的是：有些压缩算法的...

2018-06-11 10:50:49 8344 1

原创大数据与Hadoop系列之序列化（二）

上文中，介绍了Java序列化，普通的三个long类型序列化，达到了198字节为了支持以上这些特性, Hadoop引入 org.apache.hadoop.io.Writable接口,作为所有可序列化对象必须实现的接口本文就来介绍下，Hadoop内部自己的序列化机制，还是，先来一个栗子，调用Hadoop提供的Writable接口来实现同样的序列化Writable机制紧凑、快速(但不容易扩展到Java...

2018-06-08 17:11:28 6288

原创大数据与Hadoop系列之序列化（一）

传统的计算机系统通过I/O操作与外界进行交流， Hadoop 的I/O由传统的I/O系统发展而来，但又有些不同， Hadoop 需要处理 P、T 级别的数据，所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输人输出工具．本文会对其中的序列化进行研究。序列化对象的序列化(Serialization)用于将对象编码成一个字节流，以及从字节流中重新构建对象。"将一个对象...

2018-06-07 16:21:55 9351

原创大数据与Hadoop系列之Hadoop版本认知与架构

作为学习Hadoop的第一步，就是根据实际情况选择最合适的 Hadoop版本。而目前由于Hadoop的飞速发展，功能更新和错误修复在不断地迭代着，所以 Hadoop的版本非常多，显得有些杂乱。对于初学者来说，选择一个合适的Hadoop版本进行学习非常重要，本文主要理清各个 Hadoop版本之间的关系与不同。Apache HadoopHadoop目前是 Apache软件基金会的顶级项目，目前由 Ap...

2018-06-06 07:20:50 5601 1

原创大数据与算法系列之海量数据查找算法

在某些时候，可能会涉及在海量数据中的查找，如果采用通常的做法，则很难达到一定的效果，在实际工程实践中，海量数据的查找性能很肯恩鬼成为整个系统的性能瓶颈，在海量数据中的查找包括基于布隆过滤器的方式，以及基于倒排索引的数据结构。基于布隆过滤器查找布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制矢量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集...

2018-06-05 07:16:55 17641

原创大数据与算法系列之数值查找算法

查找是指在大量的数据中寻找特定的元素，它是数值计算中常用的运算逻辑，一般情况下，可以按照顺序依次查找，但是在数据量较大的情况下，顺序查找的性能往往会让人望而却步，折半查找和二叉树查找可以针对的数值序列做到快速查找，哈希查找则是针对无序的数值序列查找，它们都具有较好的性能。二分搜索算法折半查找(Half-Interval Search)也称作二分查找(Binary Search)、对数查找(Loga...

2018-06-04 10:55:08 6955

原创大数据与算法系列之字符压缩编码

字符压缩编码是常常用到的编码技术，压缩的目的在于将出现频率较高的字符用短编码表示，而对于很少出现的字符用较长编码表示，从而提升字符在某些领域中的负荷，如网络传输过程中减少流量开销，常用的字符串压缩编码包括哈夫曼编码及香农-范诺编码。哈夫曼编码通过哈夫曼编码(Huffman Coding)方式可以对词语进行数值化，根据词语可以进行哈夫曼编码处理，以减少词语集合的表示大小，哈夫曼编码是一种无损数据压缩...

2018-06-04 10:53:57 5255

原创大数据与算法系列之排序算法

排序算法是从事IT行业中最为常见的算法，排序是数值计算基础，本次将讲解各种排序算法。一般情况下的算法思想是通过两两比较的方式进行排序，虽然从理论上来讲采用两两比较可以解决现实问题，但是实际上却不会采用两两比较的方式，因此，本次将会介绍性能较高的爱须算法，也是实际中用的最多的方法。快速排序快速排序(Quick Sort)采用分治法的思想，首先把一个数值序列划分为两个子序列，然后对两个子序列再进行分治...

2018-06-04 10:52:05 6170

原创大数据与算法系列之算法性能分析

我们在敲出自己心爱的程序的时候，我们是否想过，自己程序的性能咋样！今天，我们说一说对程序或者算法的性能分析！算法复杂度算法复杂度是算法性能最基本的评价标准，复杂度是一个算法的时间运行函数，常用大写的‘O’表示，算法复杂度都时间复杂度和空间复杂度组成1.时间复杂度时间复杂度描述了算法的运行时间，例如，一个算法对于输入规模n的计算，它平均需要计算6n^3+9n次才能得到问题的解，则他的时间复杂度可视为...

2018-06-04 10:50:38 3874