自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

跋跋寒的博客

热爱大数据,热爱机器学习

原创 高并发基础:高并发IO的底层原理

写在前面:本文是拜读了《Netty、Redis、Zookeeper高并发实战》后整理的笔记或者想法 1.IO读写的基础原理 说到IO,肯定就是读和写(read/write),这里有一个和我们想象的不一样的是,代码调用read并不是直接从物理设备的数据读取到内存中,同理,write的调用也不是直...

2020-01-21 21:07:53 368 0

原创 什么是HTTP?为什么是不安全的?

我们在输入网址的时候一般是www.baidu.com,浏览器都会自动帮我们加上HTTP或者HTTPS这样的前缀,国内对于HTTPS讲解的书很少,最近有空拜读了《深入浅出https:从原理到实战》这本书,接下来会分几次表述一下对于这本书的一些笔记或者理解。 了解HTTPS之前需要先了解HTTP...

2020-01-21 18:54:22 3534 0

原创 微服务学习核心关键点

1.微服务的服务治理 当我们架构微服务应用时首先遇到的一个问题是,作为消费者如何访问并调用服务提供者所提供 的服务,作为服务提供者如何能让服务消费者知道并进行消费。在传统应用开发时,通常是在开 发语言层面上解决这个问题,可能我们从来也没有考虑过这个问题,甚至可以说这个问题在传统 开发时根本不存在。...

2019-11-28 11:34:00 216 0

原创 spark读写Elasticsearch

关于scala代码和Elasticsearch集成已经很常见了 直接一个maven配置 <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-had...

2019-11-22 14:51:59 235 0

转载 SpringBoot整合Elasticsearch

版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/chen_2890/article/details/83895646 学习本章内容的前提: 1.能独立搭建SpringBoot项目。(Sp...

2019-11-12 16:35:57 234 0

原创 Hive优化实践

不管是对于流行的分布式数据计算框架(如离线的 MapReduce、流计算 Storm、 迭代内 存计算 Spark),还是分布式计算框架新贵(如 Flink、 Beam),抑或是商业性的大数据解决 方案(如 Teradata 数据库、 EMC Greeplum、 HP Vertica、 Oracl...

2019-11-11 18:02:59 217 0

原创 ES源码之路(一):源码本地编译启动

ES源码之路(一):源码本地编译启动 先来一段客套话,介绍一下ES: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源...

2019-10-28 10:54:24 280 0

原创 hive数据压缩和sql执行测试

1.创建库 create database hivetest; hive默认有一个default库,不指定库名的话,所有的表都在里面 hive&gt; show databases; default hivetest 2.建表 建表语句基本和mysql差不多 create t...

2019-03-05 14:41:51 175 1

原创 Hbase资源管理 Quotas

生产中,每个业务之间的重要性是不一致的,每个业务的数据量、读写需求也不一致,在1.1之前,一个集群中往往有很多个业务,有的同学可以执行一个耗时的scan操作,整个集群的资源被大量占用,其它非常重要的业务就被挤压的资源,造成一系列的事故,所以,很多时候,都会把hbase分成很多个集群,重要的业务单独...

2019-01-10 21:38:37 498 0

原创 StructuredStreamingInSQL项目实现动态更新 新版(直接替换,无需重启)。

CREATE TABLE kafkaTable( word string )WITH( type='kafka', kafka.bootstrap.servers='kafka001:9092', processwindow...

2019-01-03 17:34:45 269 1

原创 StructuredStreamingInSQL项目SQL的动态添加

改变sql语句而不用重启项目实现更新 目前只实现了动态添加,动态删除待实现 kafka的配置为 CREATE TABLE kafkaTable( word string, wordcount int )WITH( type='kafka', ...

2018-12-17 17:11:07 244 1

原创 SQL实现Structured Streaming

需要的配置只有一个sql文件 1.实现socket输入 console输出 配置: CREATE TABLE SocketTable( word String, valuecount int )WITH( type='socket', h...

2018-12-12 14:19:09 232 3

转载 HIVE的十项企业级调优

原文地址:https://blog.csdn.net/Superman404/article/details/84074771 话不多说直接上货。。。。。。。。。。。。。。。。。。。。。。。。。。。 1.Fetch抓取  set hive.fetch.task.conversion=more(...

2018-11-23 10:09:56 120 0

原创 kudu 1.7  源码安装

kudu 1.7  源码安装 一. 安装环境依赖 yum install autoconf automake cyrus-sasl-devel cyrus-sasl-gssapi \   cyrus-sasl-plain flex gcc gcc-c++ gdb \   krb5-serv...

2018-11-22 18:00:48 914 4

转载 Waterdrop帮你快速玩转Spark数据处理

原文地址:https://blog.csdn.net/gaoyingju/article/details/79394729 Waterdrop 项目地址:https://interestinglab.github.io/waterdrop Databricks 开源的 Apache Spar...

2018-11-19 19:01:20 462 0

转载 工厂模式

一、设计模式的分类 总体来说设计模式分为三大类: 创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。 结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。 行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代...

2018-11-16 11:23:14 59 0

原创 Flink安装、部署、KafkaSource、SinKToMysql

flink安装、部署、测试 下载flink安装包 flink下载地址 https://archive.apache.org/dist/flink/flink-1.5.0/ 因为例子不需要hadoop,下载flink-1.5.0-bin-scala_2.11.tgz即可 上传至机器的/op...

2018-11-16 10:27:35 2042 0

原创 Nginx配置hbaseweb转发

目标 为了公司集群的安全考虑,hadoop和hbase的web访问只能供有限的人访问 而要实现内网机器给外网访问,要解决的问题是:  1.hadoop、hbase页面上的url替换成外网能访问的url  2.通过有限的端口、外网ip对外提供整集群访问  下面就通过nginx反向代理的方式实现 ...

2018-11-15 16:00:41 264 0

转载 如何从根源上解决 HDFS 小文件问题

原文地址:https://www.iteblog.com/archives/2320.html 我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 Nam...

2018-10-16 10:43:28 2979 0

转载 基于Kafka和ElasticSearch,LinkedIn如何构建实时日志分析系统?

今天,和跟大家分享我们在用ElasticSearch和Kafka做日志分析的时候遇到的问题,系统怎么样一步一步演变成现在这个版本。你如果想拿ElasticSearch和Kafka来做日志分析的话,会有一些启发。全文主要包括以下几个Topic:   日志分析系统的基本需求; LinkedIn的...

2018-09-19 17:16:11 5001 2

转载 互联网大数据面试题集锦

原文地址:http://hbase.group/article/89 以下面试题都是群里小伙伴提供的,现场真题(包含校招题)1.网易大数据面试题 说说项目 Spark哪部分用得好,如何调优 Java哪部分了解比较好 聊聊并发,并发实现方法,volatile关键字说说 HashMap的底...

2018-09-17 10:04:57 5665 0

原创 HBase的Region定位为什么只需一个META表

Hbase就不介绍了,直入正题。 为了让客户端找到包含特定主键的region,Hbase0.96之前提供了两张特殊的目录表-ROOT-和.META表,一下简称root和meta。 root表用来查询所有meta表中热region的位置。meta表则是用来查找所有table的region的位...

2018-09-14 13:47:59 6877 0

转载 美图个性化推荐的实践与探索

互 联网技术将我们带入了信息爆炸的时代,面对海量的信息,一方面用户难以迅速发现自己感兴趣的信息,另一方面长尾信息得不到曝光。为了解决这些问题,个性化推荐系统应运而生。美图拥有海量用户的同时积累了海量图片与视频,通过推荐系统有效建立了用户与内容的连接,大幅度提升产品的用户体验。 在第七期美图技术...

2018-09-13 09:46:03 5008 0

转载 Flink 原理与实现:内存管理

原文地址:https://yq.aliyun.com/articles/57815?spm=a2c4e.11153940.blogrightarea64820.29.71e5167cM5y5cc 摘要: 如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包...

2018-09-07 11:35:13 5730 0

转载 帮你解决垃圾邮件,这家公司还想让你边看邮件边挣钱!

一个解决垃圾邮件的好的思路! 原文地址:https://blog.csdn.net/kXYOnA63Ag9zqtXx0/article/details/82112596 每天上班,第一时间打开邮箱页面,有多少个小伙伴是跟我一样痛苦的?     好,先不要说 Gmail 无法上,就算小...

2018-09-05 23:43:05 5397 1

转载 从将机器学习模型转化成真正产品和服务中学到的经验教训

人工智能依然处于它的幼年时期。今天,只有15%的企业在使用机器学习,但是有30%的企业已经在它们未来的发展路线图里包括了机器学习。像Intel的CEO这样的公众人物宣称,每一个企业都应该有一个机器学习的战略,否则就会有落后的风险。那么机器学习进入你的组织机构就仅仅只是个时间问题。当然,它目前还没有...

2018-09-02 10:09:16 5752 1

原创 Hbase集群间实现数据相互同步

本次测试机器master2 、node1为第一个集群,node2、node3第二个集群,版本均为1.2.6 在第一个集群的每个节点下添加如下配置: &lt;property&gt; &lt;name&gt;hbase.replication&lt;/n...

2018-08-30 09:29:24 8742 0

转载 Hive性能优化(全面)

原文地址:https://mp.weixin.qq.com/s/sVtfUFwoAbAyUq93W2M0wA 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即...

2018-08-27 14:32:55 6175 1

转载 Java GC 及HBase RegionServer GC调优

原文地址:https://blog.csdn.net/wwwxxdddx/article/details/50981089 1背景 1.1问题描述 HBase RegionServer由于GC等原因Stop World超过40s,RS在ZK上创建的临时节点被删除,造成Master认为RS已经...

2018-08-24 13:47:02 5170 0

转载 SparkSQL – 从0到1认识Catalyst

原文地址:http://hbasefly.com/2017/03/01/sparksql-catalyst/ 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经...

2018-08-23 21:13:59 7000 0

转载 HBase最佳实践-CMS GC调优

原文地址:http://hbasefly.com/2016/08/09/hbase-cms-gc/ HBase发展到当下,对其进行的各种优化从未停止,而GC优化更是其中的重中之重。从0.94版本提出MemStoreLAB策略,Memstore Chuck Pool策略对写缓存Memstore进行...

2018-08-23 19:53:16 6325 0

转载 HBase GC的前生今世(二)

原文地址:http://hbasefly.com/2016/05/29/hbase-gc-2/ 最原始的HBase CMS GC相当严重,经常会因为碎片过多导致Promotion Failure,严重影响业务的读写请求。幸运的是,HBase并没有止步不前,很多优化方案相继被提出并贡献给社区,本文...

2018-08-23 19:52:10 5985 0

转载 HBase GC的前生今世(一)

原文地址:http://hbasefly.com/2016/05/21/hbase-gc-1/ 在之前的HBase BlockCache系列文章中已经简单提到:使用LRUBlockCache缓存机制会因为CMS GC策略导致内存碎片过多,从而可能引发臭名昭著的Full GC,触发可怕的’stop...

2018-08-23 19:51:09 5984 0

转载 Spark的调度系统

一,简介 Spark调度机制可以理解为两个层面的调度。首先,是Spark Application调度。也就是Spark应用程序在集群运行的调度,应用程序包括Driver调度和Executor调度。其次,就是每个Spark Application都会有若干Jobs(Spark Actions),然...

2018-08-23 09:32:59 7489 0

转载 Flink在唯品会的实践

本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。 ...

2018-08-23 09:30:45 6013 0

原创 kafka性能测试之Comsumer

接下来看看消费者的性能测试 [root@hadoop-sh1-core1 bin]# ./kafka-consumer-perf-test.sh --help Missing required argument "[topic]" Option ...

2018-08-16 16:02:16 6234 0

翻译 spark监控

有几种方法可以监控Spark应用程序:Web UI,指标和外部检测。 Web界面 默认情况下,每个SparkContext都会在端口4040上启动Web UI,以显示有关应用程序的有用信息。这包括: 调度程序阶段和任务的列表 RDD大小和内存使用情况的摘要 环境信息。 有关运行执行程序...

2018-08-14 16:51:59 7070 0

翻译 spark调优

数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 概要 由于大多数Spark计算的内存特性,Spark程序可能会受到群集中任何资源的瓶颈...

2018-08-14 16:49:27 5974 0

转载 Spark推测执行spark.speculation

1. 背景 hadoop的推测执行    推测执行(Speculative Execution)是指在分布式集群环境下,因为程序BUG,负载不均衡或者资源分布不均等原因,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有...

2018-08-14 15:16:32 6089 0

转载 Streaming流式框架汇总

原文:https://github.com/InterestingLab/awesome-streaming#online-machine-learning A curated list of awesome streaming (stream processing) frameworks, a...

2018-08-14 13:38:01 6570 0

提示
确定要删除当前文章?
取消 删除