大数据
文章平均质量分 96
Cool_Pepsi
这个作者很懒,什么都没留下…
展开
-
Hadoop -- Yarn
若未指定队列,test用户提交的任务到root.group.test队列运行,atguigu提交的任务到root.group.atguigu队列运行(注:group为用户所属组)。公平调度器的配置涉及到两个文件,一个是yarn-site.xml,另一个是公平调度器队列分配文件fair-scheduler.xml(文件名可自定义)。default队列占总内存的40%,最大资源容量占总资源60%,hive队列占总内存的60%,最大资源容量占总资源80%。(15)程序运行完毕后,MR会向RM申请注销自己。原创 2024-08-18 17:49:50 · 912 阅读 · 0 评论 -
Paimon教程
Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了Flink Table Store (简称 FTS)子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。原创 2024-01-21 16:07:24 · 1861 阅读 · 0 评论 -
flink教程
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0原创 2023-10-15 22:08:05 · 1141 阅读 · 1 评论 -
Iceberg教程
Iceberg是一个面向海量数据分析场景的开放表格式(Table Format)。原创 2023-11-04 12:42:37 · 765 阅读 · 0 评论 -
kafka原理&架构深入
Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。原创 2023-06-18 19:57:24 · 3313 阅读 · 1 评论 -
Presto
介绍presto以及presto优化原创 2021-11-03 15:08:53 · 1131 阅读 · 1 评论 -
scrapy爬虫总结
目录一. Scarapy1. 概述2. 流程二.一. Scarapy1. 概述Scrapy – Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。2. 流程二....原创 2021-05-09 11:37:06 · 1844 阅读 · 0 评论 -
Spark SQL的基本概念与用法
1. Spark SQL的作用Hive,它是将Hive SQL转换成MapReduce,然后提交到集群上执行的,大大简化了编写MapReduce程序的复杂性,但MapReduce这种计算模型执行效率比较慢。类比Hive,SparkSQL是Spark上的高级模块,SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行Spark SQL,执行效率非常快!SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据)SparkSQL原创 2020-06-06 15:41:23 · 588 阅读 · 0 评论 -
RDD简介
RDD - 弹性分布式数据集 (Resilient Distributed DataSet)什么是RDDRDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度;操作RDD,其实是对每个分区进行操作,分区会生成Task,Task会调度到Executor上执行相关的计算逻辑,进而对数据进操作与本地集合区别:1)RDD里面存入的是描述信息(从哪里读数据、以后对数据如何计算),不存真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数)2)RDD的算子分为原创 2020-05-23 18:27:00 · 731 阅读 · 0 评论 -
Spark运行流程
参考博文:https://blog.csdn.net/qq_17677907/article/details/88685705Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark相对于Hadoop的优势Hadoop虽然已成为大数据技术的事实标准,但其本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求,因而只适用...原创 2020-05-23 17:40:26 · 340 阅读 · 0 评论 -
大数据案例 -- App数据分析
1. 项目需求2. flume采集数据3. 编写数据清洗程序4. 脚本开发和启动将数据清洗程序导出成data-clean.jar存储在windows本地,并导入到linux,接下来就是用一个shell脚本(命名为data-clean.sh)去运行data-clean.jar。#!/bin/bashday_str=`date + '%Y-%m-%d'`inpath=/app-log-...原创 2020-04-11 21:35:03 · 2711 阅读 · 0 评论 -
Flume
1. Flume介绍Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统Flume可以采集文本文件,socket数据包、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中2. Flume运行机制Flume分布式系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连...原创 2020-04-02 22:00:37 · 253 阅读 · 0 评论 -
Hbase
1. 什么是Hbase?HBASE是一个数据库----可以提供数据的实时随机读写(MySQL就不行)HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)HBASE相比于其他NoSQL数据库(mongodb、redis、cassendra、hazelcast)的特点:Hbase的表数据存储在HDFS文件系统中从而,...原创 2020-03-12 17:30:25 · 378 阅读 · 0 评论 -
Hadoop -- Hive
文章目录1. 什么是hive?1.1 基本思想1.2 为什么使用hive?2. hive安装2.1.mysql安装2.2.hive的元数据库配置3. hive使用方式3.1 最基本使用方式3.2 启动hive服务使用3.3 脚本化运行4. 建库建表与数据导入4.1 建库4.2 建表4.2.1 基本建表语句4.2.2 删除表4.2.3 内部表与外部表4.2.4 分区表4.3 数据导入导出4.3.1 ...原创 2020-03-10 22:34:12 · 343 阅读 · 2 评论 -
Hadoop -- ZooKeeper
1. 什么是ZooKeeper?ZooKeeper 就是动物园管理员,他是用来管 hadoop(大象)、Hive(蜜蜂)等的管理员。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop、Hbase、kafka、dubbo等重要组件。ZooKeeper是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeepe...原创 2020-03-07 11:27:53 · 534 阅读 · 0 评论 -
Hadoop -- MapReduce
1. 为什么用MapReduce?小案例:统计HDFS的/wordcount/input 目录下所有文件中的每个单词出现的次数——wordcount这个wordcount程序可以在任何地方运行,访问HDFS上的文件并进行统计运算,并且可以把统计的结果写回HDFS的结果文件中;但是,进一步思考:如果文件又多又大,用上面那个程序有什么弊端?慢!因为只有一台机器在进行运算处理!如何变得更快?...原创 2020-02-28 16:13:54 · 293 阅读 · 0 评论 -
Hadoop -- HDFS
hadoop中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源。原创 2020-02-21 16:32:07 · 382 阅读 · 1 评论