![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 72
大数据的架构及部署
精神抖擞王大鹏
精神抖擞王大鹏
展开
-
Flink 奈学P6笔记
Flink 奈学课程P6学习笔记原创 2023-02-07 21:03:56 · 287 阅读 · 1 评论 -
doris insert数据时出现问题:Invalid floating-point literal
doris Invalid floating-point literal 插入数据错误解决原创 2022-11-11 20:51:42 · 923 阅读 · 0 评论 -
Hive内置函数
Hive内置函数原创 2022-08-24 16:09:28 · 901 阅读 · 0 评论 -
Hive数据类型总结
Hive数据类型总结原创 2022-08-24 14:42:32 · 1569 阅读 · 0 评论 -
Hive全操作(总结)
hive全操作总结原创 2022-08-22 23:39:30 · 175 阅读 · 0 评论 -
窗口函数的5种方法总结
窗口函数的5种方法总结原创 2022-07-20 13:22:56 · 628 阅读 · 0 评论 -
怎样通过explain执行计划,来优化SQL(以hive为例)
怎样通过explain执行计划,来优化SQL(以hive为例)原创 2022-06-10 19:51:38 · 1160 阅读 · 0 评论 -
用户行为电商数仓
数仓采集项目技术选型数据采集传输:Flume,消峰Kafka,Sqoop,Logstash,DataX数据存储:Mysql,Hdfs,Hbase,Redis,MongoDB数据计算:Hive,Tez,Spark,Flink,Storm系统数据流程设计埋点用户行为数据业务交互数据...原创 2021-09-09 21:31:41 · 87 阅读 · 0 评论 -
大数据面试总结-2021年4月
文章目录一. 小文件的问题1.1 HDFS架构2. HDFS读写流程一. 小文件的问题HDFS架构;HDFS读写流程;HDFS HA;小文件是什么小文件给Hadoop集群带来的瓶颈问题;从HDFS架构中看到Hadoop各个组件的作用是什么?把问题向尼所知道的方面去引导;1.1 HDFS架构Hadoop:HDFS/YARN/MapReduceHDFS:NameNode,DataNode, SecondaryNameNode;概念:Client、NN:– 一个,容易出现单点故障问题原创 2021-04-10 15:43:40 · 237 阅读 · 0 评论 -
Spark
文章目录一. 入门初始spark 核心RDD算子一. 入门初始spark基于内存计算(速度快),且会把任务切分成很多块来运行。借助YARN来调度资源。2.3版本的,py的spark有很多没有实现。YARN中给spark提供调度资源的功能,YARN中资源管理的主节点是RS,从节点是NodeManager。(2版本);资源由YARN管理,任务由application master来管理。spark读取数据源可以来自hdfs,也可以来自本地。hdfs是基于磁盘进行存储,block块是128M。hd原创 2021-02-05 15:18:42 · 175 阅读 · 0 评论 -
《大数据处理之道》读书总结
11111原创 2021-01-25 20:39:02 · 216 阅读 · 0 评论 -
电商网站日志分析系统总结
电商项目有些烂大街,但是作为学习,目的是通过此项目来学习各个模块的使用。文章目录一. 项目需求及数据流图需求数据流图二. JS和Java端数据来源三. Flume(本地log通过flume发送到hdfs)四. ETL五. MapReduce分析模块六. Hive与Hbase整合七. sqoop的数据导入及导出八. SQL分析模块九. 项目总结一. 项目需求及数据流图需求通过对网站的apache common日志进行分析,计算该网站的一些关键指标,供运营者进行决策时参考。开发该系统的目的是为了获取一原创 2021-01-25 04:26:46 · 1395 阅读 · 0 评论 -
MapReduce案例总结
案例一:找出每个月中气温最高的2天1949-10-01 14:21:02 34c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 37c1951-12-01 11:21:02 23c1950-10-02 12:21:02 41c1950-10-03 11:21:02 27c1951-07-01 12:21:02 45c1951-07-02 11:21:02 46c1951-07-03 12:21:03 47原创 2021-01-24 17:06:45 · 1131 阅读 · 0 评论 -
《大数据技术原理与应用》林子雨(第二版)--总结
文章目录第一篇 大数据基础大数据处理架构Hadoop厦大子雨老师的这本书内容不多,但是很全面,推荐适合大数据入门。本篇文章主要是根据书中内容,对书中的课后答案做下总结。第一篇 大数据基础大数据处理架构Hadoop试述 hadoop 和谷歌的 mapreduce、gfs 等技术之间的关系答:Hadoop 的核心是分布式文件系统 HDFS 和 MapReduce。HDFS 是谷歌文件系统 GFS 的开源实现,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储。MapReduce原创 2021-01-22 21:11:28 · 8280 阅读 · 1 评论 -
hive架构、搭建、sql语法、函数
hive架构、搭建、sql语法、函数hive介绍及架构设计回顾mapreduce的6个小案例:好友推荐,天气二次排序,pagerank,wordcount。相同的key一组,reduce端把相同的key做处理。MR的思想:分而治之。Hive产生:非java编程者对hdfs数据做mapreduce的操作。数据库和数据仓库的区别,数据仓库中需要保存的是什么东西?数据仓库里东西不允许修改,不允许删除。hdfs放的是纯文本文件;driver是一个jvm进程,limit是限制输出,分页是限制输出原创 2021-01-21 10:02:03 · 109 阅读 · 1 评论 -
MySQL面试总结
1. 谈一下你对mysql索引的理解;mysql索引用来加快对数据的访问,对于不同类型的索引,是和不同的存储引擎相关的。如果是MyISAM和InnoDB的存储引擎,是B+树,如果是Memory存储引擎的话,是哈希表。不同的存储引擎表示的是不同数据在磁盘的存储形式,k-v 格式的数据,不管任何类型的二叉树,都会让树变高,从而影响了 IO 的效率。B+树就是让树变低,从而提高访问速率。...原创 2020-12-29 22:17:45 · 114 阅读 · 0 评论 -
Hadoop(三)–MapReduce
文章目录Hadoop(三)–MapReducemrHadoop(三)–MapReducemrmr的框架:宏观作业角度,有maptask和reduceTask,这两者有宏观的依赖关系。先有map,才有reduce。没有做中间级映射,产生规范的数据集,怎么来进行reduce。map:就是maptask的计算框架。那么map的数量该怎么确定呢?开始需要把文件切分为不同的块,散列在不同的节点之上。接下来要做的就是把map的计算框架移动到map所在的服务器之上。块的数量要小于map的数量。map和spl原创 2020-12-28 10:31:29 · 161 阅读 · 0 评论 -
MySQL索引总结
索引用来加快对数据的访问。通过B+树对于不同类型的索引,是和不同的存储引擎相关的。如果使用的是xx, 是B+树;如果是。。。是哈希表。不同的存储引擎表示的是不同数据在磁盘的存储形式。k-v格式的数据。不管任何类型的二叉树,都会让树变高,从而影响了IO的效率。从而让树变低,从而提高访问速率。主键索引和组合索引。存储引擎,数据结构,索引的分类,索引涉及到的常问的几个名词,执行计划,索引优化。(把该提的点都提到;把细节点都描述清除)存储引擎数据在磁盘上的不同组织形式。innodb,myi.原创 2020-12-26 22:10:02 · 169 阅读 · 0 评论 -
Hadoop整理
HadoopQ1:现在有1T 文件,以数字、行进行存储,其中有两行文本是相同的,请找出这两行;划分文件: 根据内存对 hashcode 来取模,(根据内存限制大致划分n个文件,hashcode%n),得到的余数作为文件的名字,文件的内容是行的内容;对文件内容进行遍历,相同的两行数据都在同一个文件中;Q2:给整个数值文件做一个正序的全排序;采用两部排序的方式:思路一每次拿出一部分小数据来排序,这些排序好的小文件的特点是内部有序,但是区间无序。最后再采用归并算法来对数据进行合并;思路二原创 2020-12-22 14:29:46 · 142 阅读 · 0 评论 -
Hadoop(二)--全分布式安装、hadoop 高可用
文章目录Hadoop(二)--全分布式安装、hadoop 高可用一. 全分布式安装Hadoop(二)–全分布式安装、hadoop 高可用一. 全分布式安装之前的搭建是所有的角色进程在同一个节点hadoop0上, 真实的应该namenode单独部署一台服务器。所有环境都要有jdk;同步所有服务器的时间;查看别名:cat /etc/hosts,互相有映射ip地址才可以ping通;cat /etc/sysconfig/selinux 检查是否是关闭状态;全分布式的免密登录一定要有:谁是主节点,谁原创 2020-12-07 22:39:16 · 320 阅读 · 0 评论 -
Hadoop(一)--hadoop历史、hadoop存储模型、架构模型、读写流程、伪分布式安装
Hadoop (一)01hadoop历史、hadoop存储模型、架构模型、读写流程、伪分布式安装01场景一:现在有1T 文件,数字,行存储。其中有两行文本是相同的。找出这两行。第一步:用hashcode的方式来进行遍历,把每行来存成文件,那么这个文件可以以hashcode来命名。最后会形成一堆的文件,文件的内容是行的内容。当遍历到相同的行时,只需要放在相同hashcode的文件中即可;第二步:遍历每一个文件,只要遍历两个hashcode相同的,那么就找到了两行相同的文本。用多个服务器来进行优化,原创 2021-01-05 19:09:18 · 386 阅读 · 0 评论 -
Hadoop集群搭建--虚拟机互相ping通
文章目录目标一、虚拟机的网络配置二、虚拟机机子ip配置1. 第一台hadoop0总结目标看到了很多文献及文档,但是都没有说清ip是用的哪个,最后结果是什么。经过了一些磕绊,总结了下虚拟机配置步骤,希望能给你带来帮助。目标:新建及克隆虚拟机,做到:1. 虚拟机之间互相能ping通;2. 虚拟机和主机能互相ping通;3. 虚拟机和网站能ping通;一、虚拟机的网络配置Edit-> Virtual Network EditorVirtual Network Editor有三个网络:桥连接原创 2020-11-17 00:38:41 · 2222 阅读 · 0 评论