Hellooorld-CSDN博客

原创程序员使用ChatGPT全网最细流程

Flink包含8中分区策略，这8中分区策略(分区器)分别如下面所示，本文将从源码的角度一一解读每个分区器的实现方式。GlobalPartitioner ShufflePartitioner RebalancePartitioner RescalePartitioner BroadcastPartitioner ForwardPartitioner KeyGroupStreamPartitioner CustomPartitionerWrapperGlobalPartitioner简介

2023-06-15 10:34:46 2483

原创带你领略不一样的YARN

初印象YARN是一个通用的资源管理模块，可为各类应用程序进行资源管理和调度。在YARN上不仅可以运行MapReduce程序，还可以运行Spark、FLink等各种计算框架。YARN总体上采用的是Master/Slave架构，它包括ResourceManager和NodeManager，ResourceManager负责对各个NodeManager上的资源进行管理和调度。 ResourceManager(RM) RM是一个全局的资源管理器，负责整个系统的资源管理和分配。它主要由调度器...

2021-09-28 18:15:33 350

转载大数据量去重BitMap喝布隆过滤器

bitmaphttps://www.jianshu.com/p/8d074e8d02aa布隆过滤器https://www.jianshu.com/p/55e1e9dbf0e2

2021-09-01 14:28:57 282

转载每个大数据工程师都应该知道的消息队列演进

导语 |市面上有非常多的消息中间件，rabbitMQ、kafka、rocketMQ、pulsar、 redis等等，多得令人眼花缭乱。它们到底有什么异同，你应该选哪个？本文尝试通过技术演进的方式，以redis、kafka和 pulsar为例，逐步深入，讲讲它们架构和原理，帮助你更好地理解和学习消息队列。文章作者：刘德恩，腾讯IEG研发工程师。一、最基础的队列最基础的消息队列其实就是一个双端队列，我们可以用双向链表来实现，如下图所示： push_front：添...

2021-04-25 15:06:57 297

原创 kafka官网翻译二：API使用，配置，设计

2. API卡夫卡包括五个核心API：该生产 API允许应用程序发送数据流的卡夫卡集群中的主题。该消费者API允许应用程序从卡夫卡集群中的主题读取数据流。该流API允许将来自输入主题数据流输出的主题。所述连接API允许实现连接器，其连续地从一些源系统或应用拉进卡夫卡或从卡夫卡推入一些水槽系统或应用程序。该的AdminClientAPI允许管理和检查课题，经纪人和其他...

2019-11-24 21:25:14 1330

原创 kafka官网翻译一：简介与用例及安装手册

1.入门1.1简介ApacheKafka®是一个分布式流媒体平台。这到底是什么意思？我们认为流媒体平台具有三个关键功能：它可以让你发布和订阅记录流。在这方面，它类似于消息队列或企业消息传递系统。它允许您以容错方式存储记录流。它可以让您在发生记录时处理记录流。什么是卡夫卡好？它被用于两大类的应用程序：构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建...

2019-11-23 17:42:09 588

原创 BitMapIndex，倒排索引原理,B-Tree索引

Bitmap索引时序数据库从抽象语义上来说总体可以概括为两个方面的基本需求，一个方面是存储层面的基本需求：包括LSM写入模型保证写入性能、数据分级存储（最近2小时的数据存储在内存中，最近一天的数据存储在SSD中，一天以后的数据存储在HDD中）保证查询性能以及存储成本、数据按时间分区保证时间线查询性能。另一方面是查询层面的基本需求：包括基本的按时间线进行多个维度的原始数据查询、按时间线在多个维度...

2019-11-12 16:51:48 1787

原创 HDFS权限管理以及ACL介绍

一篇文章搞懂HDFS权限管理HDFS承载了公司内多个部门几十条业务线的几十PB数据，这些数据有些是安全级别非常高的用户隐私数据，也有被广泛被多个业务线使用的基础数据，不同的业务之间有着复杂的数据依赖。因此，如何管理好这些数据的授权，并尽可能自动化低成本的做好权限管理，是很重要的一部分工作。本文系统的描述了HDFS权限管理体系中与用户关联最紧密的授权相关内容，希望通过本文让大家对权限管理有...

2019-11-12 16:07:31 783

原创 ER建模理论及应用场景

由于看的是电子书，不想一个字一个打出来了（费时间）大家可以直接看图片，直观明了。欢迎一起交流

2019-09-16 19:39:04 645

原创 Data VauIt建模理论及应用场景

DataVault模型DataVault是在ER模型的基础上衍生而来的，模型设计的初衷是有效的组织基础数据层，使之易扩展、灵活的应对业务变化，同时强调历史性、可追溯性和原子性，不要求对数据进行过度的一致性处理；并非针对分析场景所设计。 Data Vault模型是一种中心辐射式模型，其设计重点围绕着业务键的集成模式。这些业务键是存储在多个系统中的、针对各种信息的键，用于定位和唯一标识记录或数据...

2019-09-16 19:34:36 775 1

转载详解维度建模

前一篇已经对常用的几种数据模型做了简单的介绍，本篇主要对其中最常用的维度建模做一个深入的理解。0x01 什么是维度建模维度模型是数据仓库领域另一位大师 Ralph Kimball 所倡导，他的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling，中文名《数据仓库工具箱》，是数据仓库工程领域最流行的数仓建模经典...

2019-09-16 17:19:16 1593

原创数据仓库与数据挖掘学习笔记（三）OLAP技术

学习心得一、什么是OLAP？在以前20世纪60年代末，关系型数据库与OLTP得到了快速发展，随着时间的延续，全球数据暴增，越来越多的数据被生产，同时人们对信息的需求也更加发杂，希望尽可能从GB,TB甚至PB数据直观的连接隐藏在这些数据背后的信息，传统的OLTP显得力不从心了，于是数据仓库跟OLAP技术营运而生。定义：针对某个特定的主题进行联机数据访问，处理和分析，通过直观的方式从多个维度多...

2019-09-15 21:29:31 879

原创数据仓库与数据挖掘学习笔记（二）数据仓库设计

学习心得一、数据仓库的设计步骤主要分为如下5步1) 数据仓库的规划和需求分析其中最重要的一条就是业务目标，建设数据仓库的目的，解决什么问题，Data Vault 模型2）数仓建模传统的关系型数据库建模方式采用E-R图建模，所建模型对事务性的处理非常有益，他可以保证数据的唯一性，一致性，使得操作简单高效，但数据仓库时面向分析的应用，进而分析的时一个领域，所...

2019-09-15 20:46:11 496

原创数据仓库与数据挖掘学习笔记（一）数据仓库概述

1、数据仓库有哪些主要的特征（1）、面向主题的（2）、集成的（3）、稳定性不容易丢失（非易失）（4）、按时间变化而变化（即时变）2、简述数据仓库的传统数据库的主要区别区别传统数据库数据仓库数据量很少数据量大支持的操作CURD主要用于查询不能删除更改主题域面向应用面向主题主要功能服务客户/操作人员主要是公司决策使用数据冗余...

2019-09-15 20:13:06 948

原创爬虫框架Scrapy的入门使用

步骤一：创建项目在你的程序主目录执行下面命令scrapy startproject baidu然后根据步骤继续执行cd baiduscrapy genspider baidu baidu.com步骤二：idea打开项目我们现在请打开idea，看目录结构步骤三：编写代码我们打开baidu.py文件我们可以在重写的parse方法里面实现我们的业务，使用正则，xpath，...

2019-08-17 16:17:57 252

原创性能最快的连接池. HikariCP使用

添加maven依赖<dependency> <groupId>com.zaxxer</groupId> <artifactId>HikariCP</artifactId> <version>3.3.1</version> &l...

2019-07-04 18:00:13 564 1

转载 volatile详解(内存模型->并发编程->java内存模型->引出volatile含义)

https://www.cnblogs.com/dolphin0520/p/3920373.html

2019-06-28 15:17:16 168

原创 WebSocket简单入门,js连接服务器代码实现(清晰)

一、为什么需要 WebSocket？初次接触 WebSocket 的人，都会问同样的问题：我们已经有了 HTTP 协议，为什么还需要另一个协议？它能带来什么好处？答案很简单，因为 HTTP 协议有一个缺陷：通信只能由客户端发起。举例来说，我们想了解今天的天气，只能是客户端向服务器发出请求，服务器返回查询结果。HTTP 协议做不到服务器主动向客户端推送信息。这种单向请求的特点，注定了如果服...

2019-06-27 11:22:20 6742

转载 Presto中的名词解释

presto服务进程presto集群中一共有两种服务器进程：coordinator服务进程和worker服务进程，其中coordinator服务进程的主要作用是：接收查询请求、解析查询语句、生成查询执行计划、任务调度和worker管理。而worker服务进程则执行被分解后的查询执行任务：taskcoordinatorcoordinator服务进程部署于集群中一个单独的节点上，是整个prest...

2019-06-24 09:43:45 768

转载 Maven3种打包方式之一maven-assembly-plugin的使用

在Maven中，主要有3个插件可以用来打包：maven-jar-plugin，默认的打包插件，用来打普通的project JAR包；maven-shade-plugin，用来打可执行JAR包，也就是所谓的fat JAR包；maven-assembly-plugin，支持自定义的打包结构，也可以定制依赖项等。我们日常使用的以maven-assembly-plugin为最多，因为大数据项目...

2019-06-23 18:22:20 81316

原创 Presto行转列列转行

hive中表结构如下: CREATE TABLE hive.default.t1 ( day integer, days integer ) 查看数据presto:default> select * from t1; day | days -----+------ 1 | 1 ...

2019-06-17 14:16:08 10351

原创 CDH5.8.0安装（centos6.5）超详细

基本配置Hadoop3台节点master 192.168.244.145slave1 192.168.244.146slave2 192.168.244.1471.关闭防火墙打开文件selinux：vi /etc/sysconfig/selinux修改SELINUX属性值修改如下：SELINUX=disabledchkconfig iptables offreboot查...

2019-06-16 20:52:44 626

转载数据立方体

总体介绍首先模拟一个数据分析场景，某企业积累了如下表格所示的销售数据：产品销售数据表表格中每一行表示某个时间段内某种商品在某个地区的销售情况。很明显，这些数据涉及到了时间、地区、产品三个业务角度。在对这样的数据进行分析时，不同的角色都会基于自己所感兴趣的业务角度提出问题销售经理关心各个地区的销售情况，希望找出销售增长率在平均水平之下的地区产品总监则希望了解近期内各种产品的销量对...

2019-06-13 16:50:59 2659

转载 Presto优化

https://blog.csdn.net/FreeFishLy/article/details/79081764很详细写的

2019-06-13 16:49:20 387

原创 Hive存储格式跟压缩对比(各种技术都在这里)

存储:1 TextFile2 SequenceFile3 RCFile4 OrcFile5 Parquet6 Avro6种性能测试textfile默认格式；存储方式为行存储；磁盘开销大数据解析开销大；但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。SequenceFile二进制文件,以<key,va...

2019-06-01 13:46:39 2450

原创广播变量Broadcast2种实现方式,以及开发中遇到的坑

首先,介绍2中我在开发过程中实现广播变量时用了2中方式:1. 使用mapPartitions循环每个分区里面套一个for循环进行遍历quzhi,使用yield进行返回(因为for循环不支持返回),当然了这是根据业务需要,你也可以不返回,看业务2.同样使用mapPartitions循环每个分区,只不过里面使用map进行循环其实跟第一种大差不差, 推荐第二种区别第二种...

2019-04-16 16:10:05 1246

原创 Hive优化 + 数据倾斜 +典型案例

优化1、Fetch抓取hive.fetch.task.conversion 设置成 more 执行一些limit，select 单个字段不会跑mr程序2、本地模式hive.exec.mode.local.auto 的值为 true3、表的优化3.1、老版本hive，把数据小的表放在join的左边，新版本已经优化了这个方法，放在join左边跟右边没有区别了，3.2、空ke...

2019-01-21 20:32:44 746

原创 Spark-Core源码精读(3)、Stage划分算法

Spark中对RDD的操作大体上可以分为transformation级别的操作和action级别的操作，transformation是lazy级别的操作，action操作(count、collect等)会触发具体job的执行，而每个job又会被划分成一个或者多个Stage，后面的Stage会依赖前面的Stage，而Stage划分的依据就是是否为宽依赖(Spark中RDD的依赖关系分成宽依赖和窄依赖...

2019-01-13 14:01:07 332

原创 Spark-Core源码精读(2)、Master中的schedule详解

首先，上篇给大家介绍了spark中master，跟work的启动并注册源码之后，说明集群已经启动成功了，本篇来向大家介绍下spark中application提交到集群中的master资源调度源码，是怎么资源调度的，然后work上面的Driver跟work进程是怎么启动并开始工作的，好了，废话不多说直接开始###什么时候会调用schedule？(资源调度)其实每当一个新的application加...

2019-01-05 21:02:08 302

原创 Spark-Core源码精读(1)、从start-all脚本到Master、work源码启动分析

首先来到这里的同学应该都学了spark相关知识，对于master跟work的启动注册源码感兴趣的可以往下看看master的启动注册机制首先看一下start-master.sh脚本这是最后一行代码，可见他去调用了spark-daemen。Sh，传了一个参数class然后进入spark-daemon.sh脚本里看看发现里面有一个模式匹配，匹配我们传过来的值，如果参数是一个类，就调用第一...

2018-12-30 00:15:34 331

原创 Spark中topN和分组求topN的算法

1、对于第一个求topN代码如下：原始数据/** * 对文本文件内的数字，取最大的前3个 */object TopN { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("TopN").setMaster("local") val sc = new Spa...

2018-12-27 19:51:57 1291

原创 es 安装了X-pack后，再次安装head并启动的时候连接集群报错

1、首先确保es集群开启无误，2、使用head访问es报错（F12打开都是错，）3、原因：因为配置了x-pack，有账户密码，所以head访问不了es集群4、解决：在es的安装目录下，修改vi config/elasticsearch.yml增加如下代码http.cors.enabled: truehttp.cors.allow-origin: "*"http.cors.all...

2018-12-24 14:49:44 985 2

转载谈谈RDD、DataFrame、Dataset的区别和各自的优势

在spark中，RDD、DataFrame、Dataset是最常用的数据类型，本博文给出笔者在使用的过程中体会到的区别和各自的优势共性：1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，极端情况下，...

2018-12-22 16:08:05 155

转载 Azkaban安装和使用实例

Azkaban安装1、准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器azkaban-executor-server-2.5.0.tar.gzMySQL目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 root用户,密码 root.azkaban下载...

2018-12-21 20:47:13 268 2

原创 CentOS-7设置开机进入命令行界面（不进入图形界面）

[root@localhost ~]# systemctl get-defaultgraphical.target[root@localhost ~]# systemctl set-default multi-user.targetRemoved symlink /etc/systemd/system/default.target.Created symlink from /etc/sy...

2018-12-21 13:33:36 4415

原创 hadoop写MR程序报错java.lang.AbstractMethodError: org.apache.hadoop.yarn.api.records.LocalResource.setShou

情况：在本地书写mapreduce的时候，运行driver类开始跑任务的时候，有时候可能会报java.lang.AbstractMethodError: org.apache.hadoop.yarn.api.records.LocalResource.setShouldBeUploadedToSharedCache(Z)V解决：hadoop的jar包版本问题这是我之前的默认版本...

2018-12-07 20:03:04 2019 1

原创 MR读Hbase数据，写入到Mysql(HBase->Mysql)

首先看一下Hbase的数据，本系统将Hbase放入mysql首先看一下hbase表结构需求：根据用户在hbase的通话记录，求出每个用户每个月总共通话时间，放入mysql中第一步、建立mapper端package phoneXM;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil...

2018-12-07 19:35:59 1982 2

原创 kafka启动报错-XX:+CMSClassUnloadingEnabled -XX:+CMSScavengeBeforeRemark -XX:+DisableExplicitGC -

启动kafka的时候报错，查看错误log显示如下Java HotSpot™ 64-Bit Server VM (25.152-b16) for linux-amd64 JRE (1.8.0_152-b16), built on Sep 14 2017 02:16:14 by “java_re” with gcc 4.3.0 20080428 (Red Hat 4.3.0-8)Memory: 4...

2018-12-05 20:27:53 1868 1

原创 nginx 启动报错 “/var/run/nginx/nginx.pid" failed” 解决方法

问题：　　重启虚拟机后，再次重启nginx会报错： open() "/var/run/nginx/nginx.pid" failed (2: No such file or directory)解决方法：　　（1）进入 cd /usr/local/nginx/conf/ 目录，编辑配置文件nginx.conf ；　　（2）在配置文件中有个注释的地方： #pid log...

2018-12-04 19:49:59 959

原创 Hive企业级优化

一、Fetch抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如： SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中hive.fetch.task.conversion默认是 m...

2018-12-03 16:33:52 281

大霸王学习机

bin/sqoop import \ --connect jdbc:mysql://es3:3306/ks \ --username root \ --password 123456 \ --target-dir /user/kaoshi \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by "\t"

2018-12-22