自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

跋跋寒的博客

热爱大数据，热爱机器学习

原创 Hive 大查询报警

原文地址Hive 大查询报警背景在知乎内部，Hive 主要被应用与两个场景：1. ETL 核心链路任务 2. Adhoc 即席查询。在 ETL 场景下，Hive SQL 任务都比较固定而且稳定，但是在 Adhoc 场景下，用户提交的 Hive SQL 比较随机多变。在用户对 SQL 没有做好优化的情况下，启动的 MapReduce 任务会扫描过多的数据，不仅使得任务运行较慢，还会对 HDFS 造成巨大压力，影响集群的稳定性，这种情况在季度末或者年底出现得极为频繁，有些用户会扫描一季度甚至一整年的数据

2021-09-02 11:21:29 527

原创 TIDB安装

所有机器添加tidb用户，添加sudo权限useradd tidbpasswd tidbtouch /etc/sudoers.d/tidbecho 'tidb ALL=(ALL) NOPASSWD: ALL' >/etc/sudoers.d/tidbssh添加su - tidbssh-keygencat ～/.ssh/id_rsa.pub >～/.ssh/authorized_keyschmod 600 /home/tidb/.ssh/authorized_key

2020-06-28 16:09:53 528

原创高并发基础：高并发IO的底层原理

写在前面：本文是拜读了《Netty、Redis、Zookeeper高并发实战》后整理的笔记或者想法1.IO读写的基础原理说到IO，肯定就是读和写(read/write)，这里有一个和我们想象的不一样的是，代码调用read并不是直接从物理设备的数据读取到内存中，同理，write的调用也不是直接把内存中的数据写入到物理设备上。不管read还是write都会涉及到缓存区，我们调用read实际...

2020-01-21 21:07:53 1649

原创什么是HTTP？为什么是不安全的？

我们在输入网址的时候一般是www.baidu.com，浏览器都会自动帮我们加上HTTP或者HTTPS这样的前缀，国内对于HTTPS讲解的书很少，最近有空拜读了《深入浅出https：从原理到实战》这本书，接下来会分几次表述一下对于这本书的一些笔记或者理解。了解HTTPS之前需要先了解HTTP，知道了HTTP的局限，才能掌握HTTPS安全的本质。基本概念在TCP/IP网络协...

2020-01-21 18:54:22 10954

原创微服务学习核心关键点

1.微服务的服务治理当我们架构微服务应用时首先遇到的一个问题是,作为消费者如何访问并调用服务提供者所提供的服务，作为服务提供者如何能让服务消费者知道并进行消费。在传统应用开发时，通常是在开发语言层面上解决这个问题，可能我们从来也没有考虑过这个问题，甚至可以说这个问题在传统开发时根本不存在。但在微服务架构下，同-一个微服务可能同时存在多个实例，并且这些微服务实例还在不停上线、下线, 那么...

2019-11-28 11:34:00 450

原创 spark读写Elasticsearch

关于scala代码和Elasticsearch集成已经很常见了直接一个maven配置<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-hadoop</artifactId> <version>6.1.0</ve...

2019-11-22 14:51:59 933

转载 SpringBoot整合Elasticsearch

版权声明：本文为博主原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/chen_2890/article/details/83895646学习本章内容的前提：1.能独立搭建SpringBoot项目。(SpringBoot的快速入门）2.Elasticsearch环境搭建完毕。（Elasticsear...

2019-11-12 16:35:57 497

原创 Hive优化实践

不管是对于流行的分布式数据计算框架（如离线的 MapReduce、流计算 Storm、迭代内存计算 Spark），还是分布式计算框架新贵（如 Flink、 Beam），抑或是商业性的大数据解决方案（如 Teradata 数据库、 EMC Greeplum、 HP Vertica、 Oracle Exadata），“数据量大”从来都不是问题，因为理论上来说，都可以通过增加并发的节点数来解决。...

2019-11-11 18:02:59 839

原创 ES源码之路(一)：源码本地编译启动

ES源码之路(一)：源码本地编译启动先来一段客套话，介绍一下ES：ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。ElasticSearch用于云计算中，能够达到实时搜索，稳定，可...

2019-10-28 10:54:24 1819 1

原创 hive数据压缩和sql执行测试

1.创建库create database hivetest;hive默认有一个default库，不指定库名的话，所有的表都在里面hive> show databases;defaulthivetest2.建表建表语句基本和mysql差不多create table querylog (time string,userid string,keyword string...

2019-03-05 14:41:51 530 1

原创 Hbase资源管理 Quotas

生产中，每个业务之间的重要性是不一致的，每个业务的数据量、读写需求也不一致，在1.1之前，一个集群中往往有很多个业务，有的同学可以执行一个耗时的scan操作，整个集群的资源被大量占用，其它非常重要的业务就被挤压的资源，造成一系列的事故，所以，很多时候，都会把hbase分成很多个集群，重要的业务单独一个集群，不重要的、数据量不大的再凑合凑合，又是一个集群，这样往往一个集群不会很大，造成一系列问题，集...

2019-01-10 21:38:37 2862

原创 StructuredStreamingInSQL项目实现动态更新新版(直接替换，无需重启)。

CREATE TABLE kafkaTable( word string)WITH( type='kafka', kafka.bootstrap.servers='kafka001:9092', processwindow='10 seconds,10 seconds', watermark='10 seconds', subscribe='te...

2019-01-03 17:34:45 552 1

原创 StructuredStreamingInSQL项目SQL的动态添加

改变sql语句而不用重启项目实现更新目前只实现了动态添加，动态删除待实现kafka的配置为CREATE TABLE kafkaTable( word string, wordcount int)WITH( type='kafka', kafka.bootstrap.servers='dfttshowkafka001:9092', proces...

2018-12-17 17:11:07 542 1

原创 SQL实现Structured Streaming

需要的配置只有一个sql文件1.实现socket输入 console输出配置：CREATE TABLE SocketTable( word String, valuecount int)WITH( type='socket', host='hadoop-sh1-core1', port='9998', delimiter=' ');...

2018-12-12 14:19:09 804 3

转载 HIVE的十项企业级调优

原文地址：https://blog.csdn.net/Superman404/article/details/84074771话不多说直接上货。。。。。。。。。。。。。。。。。。。。。。。。。。。1.Fetch抓取 set hive.fetch.task.conversion=more（默认）Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。...

2018-11-23 10:09:56 222

原创 kudu 1.7 源码安装

kudu 1.7 源码安装一. 安装环境依赖yum install autoconf automake cyrus-sasl-devel cyrus-sasl-gssapi \ cyrus-sasl-plain flex gcc gcc-c++ gdb \ krb5-server krb5-workstation libtool make openssl-devel patc...

2018-11-22 18:00:48 2104 4

转载 Waterdrop帮你快速玩转Spark数据处理

原文地址：https://blog.csdn.net/gaoyingju/article/details/79394729Waterdrop 项目地址：https://interestinglab.github.io/waterdropDatabricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处，我们在此...

2018-11-19 19:01:20 1410

转载工厂模式

一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式，共十一种：策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两...

2018-11-16 11:23:14 205

原创 Flink安装、部署、KafkaSource、SinKToMysql

flink安装、部署、测试下载flink安装包flink下载地址https://archive.apache.org/dist/flink/flink-1.5.0/因为例子不需要hadoop，下载flink-1.5.0-bin-scala_2.11.tgz即可上传至机器的/opt目录下解压tar -zxf flink-1.5.0-bin-scala_2.11.tgz -...

2018-11-16 10:27:35 3177 2

原创 Nginx配置hbaseweb转发

目标为了公司集群的安全考虑，hadoop和hbase的web访问只能供有限的人访问而要实现内网机器给外网访问，要解决的问题是： 1.hadoop、hbase页面上的url替换成外网能访问的url 2.通过有限的端口、外网ip对外提供整集群访问下面就通过nginx反向代理的方式实现步骤整个实现步骤为：### 1.下载nginx_substitutions_filter并解...

2018-11-15 16:00:41 796

转载如何从根源上解决 HDFS 小文件问题

原文地址：https://www.iteblog.com/archives/2320.html我们知道，HDFS 被设计成存储大规模的数据集，我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据（比如文件由哪些块组成、这些块分别存储在哪些节点上）全部都是由 NameNode 节点维护，为了达到高效的访问， NameNode 在启动的时候会将这些元数据全部加载到内存...

2018-10-16 10:43:28 3237

转载基于Kafka和ElasticSearch，LinkedIn如何构建实时日志分析系统？

今天，和跟大家分享我们在用ElasticSearch和Kafka做日志分析的时候遇到的问题，系统怎么样一步一步演变成现在这个版本。你如果想拿ElasticSearch和Kafka来做日志分析的话，会有一些启发。全文主要包括以下几个Topic：日志分析系统的基本需求；LinkedIn的日志系统演进过程；我们的经验和教训。为什么要做日志分析系统？首先，什么是日志？简单的...

2018-09-19 17:16:11 5363 2

转载互联网大数据面试题集锦

原文地址:http://hbase.group/article/89以下面试题都是群里小伙伴提供的，现场真题(包含校招题)1.网易大数据面试题说说项目 Spark哪部分用得好，如何调优 Java哪部分了解比较好聊聊并发，并发实现方法，volatile关键字说说 HashMap的底层原理为什么要重写hashcode和equals 说说jvm 各个垃圾收集器运用在什么情形 ...

2018-09-17 10:04:57 5967

原创 HBase的Region定位为什么只需一个META表

Hbase就不介绍了，直入正题。为了让客户端找到包含特定主键的region，Hbase0.96之前提供了两张特殊的目录表-ROOT-和.META表，一下简称root和meta。root表用来查询所有meta表中热region的位置。meta表则是用来查找所有table的region的位置。Hbase原来的设计中只有一个root region，则root从不拆分，从而保证类似于B+树结构...

2018-09-14 13:47:59 8359

转载美图个性化推荐的实践与探索

互联网技术将我们带入了信息爆炸的时代，面对海量的信息，一方面用户难以迅速发现自己感兴趣的信息，另一方面长尾信息得不到曝光。为了解决这些问题，个性化推荐系统应运而生。美图拥有海量用户的同时积累了海量图片与视频，通过推荐系统有效建立了用户与内容的连接，大幅度提升产品的用户体验。在第七期美图技术沙龙中美图技术专家蔡淇森分享了美图技术团队在个性化推荐上的实践与探索，希望对打开本篇文章的你有所启发...

2018-09-13 09:46:03 5238

转载 Flink 原理与实现：内存管理

原文地址:https://yq.aliyun.com/articles/57815?spm=a2c4e.11153940.blogrightarea64820.29.71e5167cM5y5cc摘要：如今，大数据领域的开源框架（Hadoop，Spark，Storm）都使用的 JVM，当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中，这就不得不面对 JVM 存...

2018-09-07 11:35:13 8122

转载从将机器学习模型转化成真正产品和服务中学到的经验教训

人工智能依然处于它的幼年时期。今天，只有15%的企业在使用机器学习，但是有30%的企业已经在它们未来的发展路线图里包括了机器学习。像Intel的CEO这样的公众人物宣称，每一个企业都应该有一个机器学习的战略，否则就会有落后的风险。那么机器学习进入你的组织机构就仅仅只是个时间问题。当然，它目前还没有进入。然而在与希望在其企业中实施机器学习的CEO交谈时我们发现：将机器学习从科学转向生产似乎存在一...

2018-09-02 10:09:16 5906 1

原创 Hbase集群间实现数据相互同步

本次测试机器master2 、node1为第一个集群，node2、node3第二个集群，版本均为1.2.6在第一个集群的每个节点下添加如下配置：<property><name>hbase.replication</name><value>true</value></property>重启，使配置生效...

2018-08-30 09:29:24 11663 1

转载 Hive性能优化（全面）

原文地址：https://mp.weixin.qq.com/s/sVtfUFwoAbAyUq93W2M0wA1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始...

2018-08-27 14:32:55 6335 1

转载 Java GC 及HBase RegionServer GC调优

原文地址：https://blog.csdn.net/wwwxxdddx/article/details/509810891背景1.1问题描述HBase RegionServer由于GC等原因Stop World超过40s，RS在ZK上创建的临时节点被删除，造成Master认为RS已经下线，重新分配该RS上的Region。RS恢复后，由于种种原因（WAL被其它RSSplit并删除，Ma...

2018-08-24 13:47:02 5724

转载 SparkSQL – 从0到1认识Catalyst

原文地址：http://hbasefly.com/2017/03/01/sparksql-catalyst/最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验，弱势在于分布式领域的高可用性、容错性、扩展性等，假以时日，让其经过一定的改造，比如引入Paxos、raft等，强化自己在分布式领域的能力，相信一定会在大数据系统中占有...

2018-08-23 21:13:59 9345 4

转载 HBase最佳实践－CMS GC调优

原文地址：http://hbasefly.com/2016/08/09/hbase-cms-gc/HBase发展到当下，对其进行的各种优化从未停止，而GC优化更是其中的重中之重。从0.94版本提出MemStoreLAB策略，Memstore Chuck Pool策略对写缓存Memstore进行优化开始，到0.96版本提出BucketCache以及堆外内存方案对读缓存BlockCache进行优化...

2018-08-23 19:53:16 6960

转载 HBase GC的前生今世（二）

原文地址：http://hbasefly.com/2016/05/29/hbase-gc-2/最原始的HBase CMS GC相当严重，经常会因为碎片过多导致Promotion Failure，严重影响业务的读写请求。幸运的是，HBase并没有止步不前，很多优化方案相继被提出并贡献给社区，本文要介绍的就是几个比较重要的核心优化，分别是针对Memstore所作的两个优化：Thread-Local...

2018-08-23 19:52:10 6116

转载 HBase GC的前生今世（一）

原文地址：http://hbasefly.com/2016/05/21/hbase-gc-1/在之前的HBase BlockCache系列文章中已经简单提到：使用LRUBlockCache缓存机制会因为CMS GC策略导致内存碎片过多，从而可能引发臭名昭著的Full GC，触发可怕的’stop-the-world’暂停，严重影响上层业务；而Bucket Cache缓存机制因为在初始化的时候就申...

2018-08-23 19:51:09 6087

转载 Spark的调度系统

一，简介Spark调度机制可以理解为两个层面的调度。首先，是Spark Application调度。也就是Spark应用程序在集群运行的调度，应用程序包括Driver调度和Executor调度。其次，就是每个Spark Application都会有若干Jobs(Spark Actions)，然后这些job是以何种机制，在Executor上执行的，也是需要一个调度管理的机制，该层面调度也可以理解...

2018-08-23 09:32:59 8818

转载 Flink在唯品会的实践

本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容，主要包括实时计算框架和提供实时基础数据，以及机器学习平台的工作。之前在美团点评，也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。本文主要内容如下：唯品会实时平台现状 Flink在唯品会的实践 Flin...

2018-08-23 09:30:45 6152

原创 kafka性能测试之Comsumer

接下来看看消费者的性能测试[root@hadoop-sh1-core1 bin]# ./kafka-consumer-perf-test.sh --helpMissing required argument "[topic]"Option Description -...

2018-08-16 16:02:16 7225

翻译 spark监控

有几种方法可以监控Spark应用程序：Web UI，指标和外部检测。Web界面默认情况下，每个SparkContext都会在端口4040上启动Web UI，以显示有关应用程序的有用信息。这包括：调度程序阶段和任务的列表 RDD大小和内存使用情况的摘要环境信息。有关运行执行程序的信息您只需http://<driver-node>:4040在Web浏览器中打开即可访...

2018-08-14 16:51:59 7441

翻译 spark调优

数据序列化内存调整内存管理概述确定内存消耗调整数据结构序列化RDD存储垃圾收集调整其他考虑因素并行程度减少任务的内存使用情况广播大变量数据位置概要由于大多数Spark计算的内存特性，Spark程序可能会受到群集中任何资源的瓶颈：CPU，网络带宽或内存。大多数情况下，如果数据适合内存，瓶颈就是网络带宽，但有时候，您还需要进行一些...

2018-08-14 16:49:27 6072

转载 Spark推测执行spark.speculation

1. 背景hadoop的推测执行　　推测执行(Speculative Execution)是指在分布式集群环境下，因为程序BUG，负载不均衡或者资源分布不均等原因，造成同一个job的多个task运行速度不一致，有的task运行速度明显慢于其他task（比如：一个job的某个task进度只有10%，而其他所有task已经运行完毕），则这些task拖慢了作业的整体执行进度，为了避免这种情况发生...

2018-08-14 15:16:32 6673

头条推荐原理讲解

头条推荐原理ppt详细解析你值得拥有，还有其他资源呦

2018-08-13

Hive、Hbase、Mahout

内含mahout实践指南，hive编程指南，hbase权威指南，hbase实战，hbase企业应用实战，mahout实战等等7本书，你值得拥有

2018-05-24

机器学习与数据挖掘

内含推荐系统实战，机器学习实战，机器学习算法原理与编程实践，机器学习:实用案例解析，机器学习导论，数据挖掘：概念与技术，数据挖掘十大算法等等8本书，你值得拥有

2018-05-24

Hadoop指南、源码等6本

内含Hadoop权威指南第三版和第四版，Hadoop技术内幕Yarn与common与Hdfs架构设计原理，Mapreduce详解等6本书

2018-05-24

kafka书籍，三本

内含kafka权威指南，kafka源码解析与实战、Apache kafka源码剖析等三本书，你值得拥有

2018-05-24

hadoop、hive、spark、storm、机器学习

内含hadoop、hive、spark、机器学习、数据挖掘、storm、hbase等124本书，你值得拥有

2018-05-24

Hbase参数优化

里面是Hbase相关参数的优化

2018-05-17

Hive编程指南

这是大数据部分hive学习的编程指南，欢迎下载

2017-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除