自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

跋跋寒的博客

热爱大数据,热爱机器学习

  • 博客(33)
  • 资源 (9)
  • 收藏
  • 关注

原创 机器学习入门知识

什么事机器学习?我们会发现这里涉及很多基于经验做出的预判.例如,为 什么看到微温路面、感到和风、看到晚霞,就认为明天是好天呢?这是因为在 我们的生活经验中已经遇见过很多类似情况,头一天观察到上述特征后,第二 天天气通常会很好。为什么色泽青绿、根蒂蜷缩、敲声浊晌,就能判断出是正 熟的好瓜?因为我们吃过、看过很多西瓜,所以基于色泽、根蒂、敲声这几个 特征我们就可以做出相当好的判断.类似的,我们从以往的...

2018-06-29 17:35:53 6827 1

原创 Hbase自定义过滤器

import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.filter.Filter;import org.apache.hadoop.hbase.f...

2018-06-29 17:01:31 6665

原创 Hbase-Filter算子大全

public static void ValueFilterExam() throws Exception{ Configuration config = HBaseConfiguration.create(); config.set("hbase.zookeeper.quorum","node2"); config.set("hbase.zooke...

2018-06-29 16:59:01 6351

原创 大数据与kafka系列之Produce源码分析(三)

上篇说了kafka produce过程中的分区和拦截器,这节继续。 int partition = partition(record, serializedKey, serializedValue, cluster); int serializedSize = Records.LOG_OVERHEAD + Record.recordSize(serializedKey, serial...

2018-06-28 19:42:29 6436

转载 Hbase 技术细节笔记(下)

原文地址:https://cloud.tencent.com/developer/article/1006044四、RegionServer的故障恢复我们知道,RegionServer的相关信息保存在ZK中,在RegionServer启动的时候,会在Zookeeper中创建对应的临时节点。RegionServer通过Socket和Zookeeper建立session会话,RegionServer会...

2018-06-28 09:51:27 6036

转载 Hbase 技术细节笔记(上)

原文地址:https://cloud.tencent.com/developer/article/1006043前言最近在跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的理解,对相关知识点做了笔记,并在组内进行了Hbase相关技术的分享,由于Hbase涵盖的内容比较多,因此计划分享2期,下面就是针对第一期Hbase技术分享整体而成,第...

2018-06-28 09:46:11 6201

转载 基于redis(key分段,避免一个key过大) 和db实现的 布隆过滤器(解决hash碰撞问题)

原文地址:https://yq.aliyun.com/articles/167466摘要: 基于redis(key分段,避免一个key过大) 和db实现的 布隆过滤器(解决hash碰撞问题)1.计算出key的哈希值。根据hash值和固定段大小取模计算出偏移位offset。根据固定前置+hash值/固定段大小计算出所处段的bitKey。根据bitKey和offset判断是否存在。如果存在然后调用co...

2018-06-27 19:12:01 7452

转载 深入理解Spark ML:基于ALS矩阵分解的协同过滤算法与源码分析

原文地址:https://blog.csdn.net/u011239443/article/details/517529041. 引言随着互联网的迅猛发展,为了满足人们在繁多的信息中获取自己需要内容的需求,个性化推荐应用而生。协同过滤推荐是其中运用最为成功的技术之一。其中,基于用户的最近邻法根据相似用户的评分来预测当前用户的评分。然而,在用户数量以及用户评分不足的情况下,该方法存在冷启动和数据稀疏...

2018-06-27 18:50:54 6808

转载 hbase源码系列(一)Balancer 负载均衡

原文地址:https://www.cnblogs.com/cenyuhai/p/3650943.html看源码很久了,终于开始动手写博客了,为什么是先写负载均衡呢,因为一个室友入职新公司了,然后他们遇到这方面的问题,某些机器的硬盘使用明显比别的机器要多,每次用hadoop做完负载均衡,很快又变回来了。  首先我们先看HMaster当中怎么初始化Balancer的,把集群的状态穿进去,设置maste...

2018-06-27 16:49:26 6115

转载 HBase 数据迁移

原文地址:https://utf7.github.io/2018/01/13/hbase-data-migration/本文介绍 HBase 常见的适合大数据量的迁移方法:DISTCP、SNAPSHOT1、DSTCP+FIX 元数据信息2、SNAPSHOT快照导出迁移DISTCP迁移DISTCP的思路是,直接通过DISTCP拷贝HBase 的目录文件到目标集群,然后在目标集群通过hbase提供的h...

2018-06-27 09:08:35 6865

转载 调优Apache Kafka集群

原文地址:http://www.cnblogs.com/huxi2b/p/6936348.html今天带来一篇译文“调优Apache Kafka集群”,里面有一些观点并无太多新颖之处,但总结得还算详细。该文从四个不同的目标出发给出了各自不同的参数配置,值得大家一读~ 原文地址请参考:https://www.confluent.io/blog/optimizing-apache-kafka-depl...

2018-06-26 16:36:07 6201

转载 大数据量下的集合过滤—Bloom Filter

原文地址:https://www.cnblogs.com/z941030/p/9218356.html算法背景如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。链表、树、散列表(又叫哈希表,Hash table)等等数据结构都是这种思路,存储位置要么是磁盘,要么是内存。很多时候要么是以时间换空间,要么是以空间换时间。在响应时间要求比较严格的情况下,如果我...

2018-06-26 16:33:59 9176

原创 大数据与kafka系列之Produce源码分析(二)

上篇文章主要讲解了produce源码中元数据更新相关内容,本次主要讲解produce的分区和拦截器。private Future<RecordMetadata> doSend(ProducerRecord<K, V> record, Callback callback) { TopicPartition tp = null; try { ...

2018-06-26 15:43:56 6351

转载 HBase的RowKey设计原则

HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:通过get方式,指定rowkey获取唯一一条记录通过scan方式,设置startRow和stopRow参数进行...

2018-06-26 09:46:03 5998

转载 高手如何实践HBase?不容错过的滴滴内部技巧

原文地址:https://yq.aliyun.com/articles/601722?utm_content=m_1000001132摘要: HBase和Phoenix的优势大家众所周知,想要落地实践却问题一堆?replication的随机发送、Connection的管理是否让你头痛不已?本次分享中,滴滴以典型的应用场景带大家深入探究HBase和Phoenix,并分享内核改进措施。摘要: HBas...

2018-06-25 17:14:16 6364

原创 大数据与kafka系列之Produce源码分析(一)

首先一个普通的produce代码如下: final String kafkazk="localhost:9092"; String topic="testAPI"; Properties properties = new Properties() {{ put(ProducerConfig.BOOTSTRAP_SERVERS_...

2018-06-25 15:14:32 6468 1

转载 Flink 原理与实现:理解 Flink 中的计算资源

原文地址   https://yq.aliyun.com/articles/64819摘要: 本文所讨论的计算资源是指用来执行 Task 的资源,是一个逻辑概念。本文会介绍 Flink 计算资源相关的一些核心概念,如:Slot、SlotSharingGroup、CoLocationGroup、Chain等。并会着重讨论 Flink 如何对计算资源进行管理和隔离,如何将计算资源利用率最大化等等。理解...

2018-06-22 09:15:51 10373

原创 大数据与Kafka系列之kafka消费者各种启动参数说明

建立一个普通的消费者。public static void CommonDemo() { final Properties properties = new Properties() {{ put("bootstrap.servers", "localhost:9092"); put("group.id", "testAPIdemo"...

2018-06-21 14:10:20 12200

原创 大数据与Kafka系列之kafka生产者各种启动参数说明

首先是启动一个生产者, final String kafkazk="localhost:9092"; String topic="testAPI"; Properties properties = new Properties() {{ put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, kafkazk); ...

2018-06-20 14:04:50 12400

原创 大数据与Kafka系列之你所不知道的ConsumerAPI

普通的APIpublic static void CommonDemo() { final Properties properties = new Properties() {{ put("bootstrap.servers", "localhost:9092"); put("group.id", "test"); ...

2018-06-19 13:43:25 6455

原创 大数据与Hadoop系列之分布式文件系统(二)

Linux文件系统前面介绍了文件系统的基本原理,本文通过Linux文件系统进一步深入分析文件系统的具体设计方法。 Linux的本地文件系统包括:Ext2 (Second Extended Filesystem,第二扩展文件系统)Ext3 (ThirdExtended Filesystem,第三扩展文件系统)它们是UNIX文件系统的一种快速、稳定的实现。同时,为了支持多种类文件系统,如网络文件系统、...

2018-06-15 10:01:03 5831

原创 大数据与Hadoop系列之分布式文件系统(一)

文件系统早在 1965 年开发的 Multies ( UNIX 的前身)就详细地设计了文件系统,这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信.息的长期存储,并达到如下要求:1.能够存储大量的信息。2.使用信息的应用终止时,信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法,是把信息以一种单元,即"文件" ( file)的形式存储在磁盘或者其他...

2018-06-14 10:51:51 11001 1

转载 Map 综述(二):彻头彻尾理解 LinkedHashMap

转自https://blog.csdn.net/justloveyou_/article/details/71713781摘要:  HashMap和双向链表合二为一即是LinkedHashMap。所谓LinkedHashMap,其落脚点在HashMap,因此更准确地说,它是一个将所有Entry节点链入一个双向链表的HashMap。由于LinkedHashMap是HashMap的子类,所以Linke...

2018-06-12 14:22:25 5979

原创 大数据与Hadoop系列之压缩(二)

压缩流和解压缩流Java最初版本的输入/输出系统是基于流的,流抽象了任何有能力产出数据的数据源,或者是有行能力接收数据的接收端。一般来说,通过设计模式装饰,可以为流添加一些额外的功能,如前面提及的序列化流ObjectInutStream和ObjectOutputStream。压缩流(CompressionOutputStream)和解压缩流(CompressioninputStream)是Hado...

2018-06-12 10:37:15 6079

原创 大数据与Hadoop系列之压缩(一)

Hadoop压缩简介Hadoop作为一个较通用的海量数椐处理平台,在使用压缩方式方面,主要考虑压缩速度和压缩文件的可分割性.所有的压缩算法都会考虑时间和空间的权衡,更快的压缩和解压缩速度通常会耗费更多的交间(压缩比较低)例如:通过gzip命令压缩数据时,用户可以设置不同的选项来选择速度优先或空间优先.选项-1表示优先考虑速度,选项-9表示空间最优,可以获得最大的压缩比。需要注意的是:有些压缩算法的...

2018-06-11 10:50:49 8344 1

原创 大数据与Hadoop系列之序列化(二)

上文中,介绍了Java序列化,普通的三个long类型序列化,达到了198字节为了支持以上这些特性, Hadoop引入 org.apache.hadoop.io.Writable接口,作为所有可序列化对象必须实现的接口本文就来介绍下,Hadoop内部自己的序列化机制,还是,先来一个栗子,调用Hadoop提供的Writable接口来实现同样的序列化Writable机制紧凑、快速(但不容易扩展到Java...

2018-06-08 17:11:28 6288

原创 大数据与Hadoop系列之序列化(一)

传统的计算机系统通过I/O操作与外界进行交流, Hadoop 的I/O由传统的I/O系统发展而来,但又有些不同, Hadoop 需要处理 P、T 级别的数据,所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输人输出工具.本文会对其中的序列化进行研究。序列化对象的序列化(Serialization)用于将对象编码成一个字节流,以及从字节流中重新构建对象。"将一个对象...

2018-06-07 16:21:55 9351

原创 大数据与Hadoop系列之Hadoop版本认知与架构

作为学习Hadoop的第一步,就是根据实际情况选择最合适的 Hadoop版本。而目前由于Hadoop的飞速发展,功能更新和错误修复在不断地迭代着,所以 Hadoop的版本非常多,显得有些杂乱。对于初学者来说,选择一个合适的Hadoop版本进行学习非常重要,本文主要理清各个 Hadoop版本之间的关系与不同。Apache HadoopHadoop目前是 Apache软件基金会的顶级项目,目前由 Ap...

2018-06-06 07:20:50 5601 1

原创 大数据与算法系列之海量数据查找算法

在某些时候,可能会涉及在海量数据中的查找,如果采用通常的做法,则很难达到一定的效果,在实际工程实践中,海量数据的查找性能很肯恩鬼成为整个系统的性能瓶颈,在海量数据中的查找包括基于布隆过滤器的方式,以及基于倒排索引的数据结构。基于布隆过滤器查找布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制矢量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集...

2018-06-05 07:16:55 17641

原创 大数据与算法系列之数值查找算法

查找是指在大量的数据中寻找特定的元素,它是数值计算中常用的运算逻辑,一般情况下,可以按照顺序依次查找,但是在数据量较大的情况下,顺序查找的性能往往会让人望而却步,折半查找和二叉树查找可以针对的数值序列做到快速查找,哈希查找则是针对无序的数值序列查找,它们都具有较好的性能。二分搜索算法折半查找(Half-Interval Search)也称作二分查找(Binary Search)、对数查找(Loga...

2018-06-04 10:55:08 6955

原创 大数据与算法系列之字符压缩编码

字符压缩编码是常常用到的编码技术,压缩的目的在于将出现频率较高的字符用短编码表示,而对于很少出现的字符用较长编码表示,从而提升字符在某些领域中的负荷,如网络传输过程中减少流量开销,常用的字符串压缩编码包括哈夫曼编码及香农-范诺编码。哈夫曼编码通过哈夫曼编码(Huffman Coding)方式可以对词语进行数值化,根据词语可以进行哈夫曼编码处理,以减少词语集合的表示大小,哈夫曼编码是一种无损数据压缩...

2018-06-04 10:53:57 5255

原创 大数据与算法系列之排序算法

排序算法是从事IT行业中最为常见的算法,排序是数值计算基础,本次将讲解各种排序算法。一般情况下的算法思想是通过两两比较的方式进行排序,虽然从理论上来讲采用两两比较可以解决现实问题,但是实际上却不会采用两两比较的方式,因此,本次将会介绍性能较高的爱须算法,也是实际中用的最多的方法。快速排序快速排序(Quick Sort)采用分治法的思想,首先把一个数值序列划分为两个子序列,然后对两个子序列再进行分治...

2018-06-04 10:52:05 6170

原创 大数据与算法系列之算法性能分析

我们在敲出自己心爱的程序的时候,我们是否想过,自己程序的性能咋样!今天,我们说一说对程序或者算法的性能分析!算法复杂度算法复杂度是算法性能最基本的评价标准,复杂度是一个算法的时间运行函数,常用大写的‘O’表示,算法复杂度都时间复杂度和空间复杂度组成1.时间复杂度时间复杂度描述了算法的运行时间,例如,一个算法对于输入规模n的计算,它平均需要计算6n^3+9n次才能得到问题的解,则他的时间复杂度可视为...

2018-06-04 10:50:38 3874

头条推荐原理讲解

头条推荐原理ppt详细解析 你值得拥有,还有其他资源呦

2018-08-13

Hive、Hbase、Mahout

内含mahout实践指南,hive编程指南,hbase权威指南,hbase实战,hbase企业应用实战,mahout实战等等7本书,你值得拥有

2018-05-24

机器学习与数据挖掘

内含推荐系统实战,机器学习实战,机器学习算法原理与编程实践,机器学习:实用案例解析,机器学习导论,数据挖掘:概念与技术,数据挖掘十大算法等等8本书,你值得拥有

2018-05-24

Hadoop指南、源码等6本

内含Hadoop权威指南第三版和第四版,Hadoop技术内幕Yarn与common与Hdfs架构设计原理,Mapreduce详解等6本书

2018-05-24

kafka书籍,三本

内含kafka权威指南,kafka源码解析与实战、Apache kafka源码剖析等三本书,你值得拥有

2018-05-24

hadoop、hive、spark、storm、机器学习

内含hadoop、hive、spark、机器学习、数据挖掘、storm、hbase等124本书,你值得拥有

2018-05-24

Hive编程指南

这是大数据部分hive学习的编程指南,欢迎下载

2017-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除