大数据
文章平均质量分 67
本专栏囊括大数据领域常用技术
南宫齐世伟
这个作者很懒,什么都没留下…
展开
-
数据库设计之 - 范式理论
范式理论一、范式概念1. 定义范式可以理解为在设计一张数据表时,应该符合的标准级别、规范和要求。2. 优点采用范式,可以降级数据的冗余性为什么要降级数据的冗余性?在21世纪初期,由于磁盘价格高昂,便于减少磁盘存储。以前没有分布式存储,都是单机,只能增加磁盘,磁盘个数也是有限的。一次修改,需要修改多个表,很难保证数据一致性。3. 缺点范式的缺点是在获取数据时,需要通过Join拼接获取最后的数据。应用扩展:在关系数据库中,例如MySql中,多次Join并不会明显降低原创 2021-11-02 15:04:41 · 729 阅读 · 1 评论 -
ClickHouse 随笔
ClickHouse一、ClickHouse初级1.1 ClickHouse入门1.1.1 概念ClickHouse 的全称是 Click Stream,Data WareHouse,简称 ClickHouseClickHouse 是俄罗斯的 Yandex 于 2016 年开源的一个用于联机分析(OLAP:Online Analytical Processing)的完全的列式数据库管理系统(DBMS:Database Management System), 主要用于在线分析处理查询(OLAP),原创 2021-08-20 17:36:13 · 544 阅读 · 0 评论 -
Flink 随笔
一、Flink简介1.1 初识Flink1.1.1 序言 Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Apache软件基金会的顶级项目。 在德语中,Flink一词表示快速和灵巧,项目采用一只原创 2021-07-14 15:07:42 · 247 阅读 · 0 评论 -
Shell随笔
Shell随笔1. 单引号、双引号、反引号和$()的区别新建文件,文件中输入以下内容,做测试:vim test.sh#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo ' "$do_date" 'echo " '$do_date' "echo `date`echo $($1)赋予执行权限chmod u+x test.sh执行脚本./test.sh date输出结果$do_datedat原创 2021-04-22 13:32:12 · 103 阅读 · 0 评论 -
Kafka 随笔
Kafka一、MQMessage Queue 简称 MQ ;消息队列,也称为消息中间件。是基础数据结构中“先进先出”的一种数据结构。一般用来解决:应用解耦、异步消息、流量削峰等问题,实现高性能、高可用、可伸缩和最终一致性架构。MQ的技术维度API 发送和接收MQ 的高可用性MQ 的集群和容错配置MQ 的持久化MQ 的延时发送 / 定时发送签收机制MQ 消费消息的两种模式点对点模式一对一,消费者主动拉取数据,消息收到后消息清除消息生产者生产消息发送到Queue中,然后原创 2021-04-13 16:19:43 · 281 阅读 · 0 评论 -
Hive 随笔
一、Hive基本概念1.1 hive基本认识hive是基于hadoop的一个数仓分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据。Hive毕竟不是数据库,但是在大数据的场景中,我们大量的数据都存储在hadoop的hdfs中,那么我们又怎样去做才能去操作hdfs中的数据呢?那就是使用:Hive。所以说,Hive就是一个操作hdfs中数据的一个客户端工具。 tel up down13838原创 2021-04-12 14:21:12 · 404 阅读 · 0 评论 -
UDF UDAF UDTF 区别
UDF UDAF UDTF 区别UDF概念:User-Defined-Function 自定义函数 、一进一出;只对单行数据产生作用;实际使用时,UDF函数以匿名函数的形式进行操作使用背景:系统内置函数无法解决实际的业务问题,需要开发者自己编写函数实现自身的业务实现诉求。应用场景非常多,面临的业务不同导致个性化实现很多,故udf很需要。意义:函数扩展得到解决,极大丰富了可定制化的业务需求。Input/Output要求-要解决的问题in:out=1:1,只能输入一条记录原创 2021-03-31 19:09:54 · 1052 阅读 · 0 评论 -
SparkSQL
SparkSQL第1章 Spark概述1.1 SparkSQL是什么Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。1.2 SparkSQL and HiveSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为原创 2021-03-22 13:55:27 · 194 阅读 · 0 评论 -
Scala中常用高阶函数
Scala中常用高阶函数map() 、 flatMap()map映射在Scala中可以通过map映射操作进行处理,将集合中的每一个元素通过指定功能(函数)映射(操作)成新的结果集合,过程中经历了2个过程对集合中元素进行遍历对集合中的每一个元素进行操作flatMap扁平化...原创 2021-03-11 20:54:59 · 167 阅读 · 0 评论 -
HBase 随笔
HBase数据存储模型分类**技能支撑:**行式存储 && 列式存储行式存储:关系型数据库【Oracle、MySQL、SQLServer】列式存储:NoSQL数据库【HBase、cassandra】1 行式存储概念:行式存储的数据是跳跃式的存储在磁盘上。当SQL语句执行时,会增多磁盘的转动次数,磁头也需要多次长距离的移动,随之带来的饿问题即是————IO操作增多,压力加大。数据量越大,SQL语句越复杂,关系型数据库的执行效率会出现“断崖式下降”!!![原创 2021-02-26 20:11:17 · 224 阅读 · 0 评论 -
Hive的基本操作
Hive的基本操作1.mysql安装1.使用脚本卸载本机的mysql编写脚本:remove_mysql.sh#!/bin/bashservice mysql stop 2>/dev/nullservice mysqld stop 2>/dev/nullrpm -qa | grep -i mysql | xargs -n1 rpm -e --nodeps 2>/dev/nullrpm -qa | grep -i mariadb | xargs -n1 rpm -e原创 2021-01-21 11:26:37 · 102 阅读 · 0 评论 -
mapreduce运行的5个阶段
https://blog.csdn.net/chenzhikaida/article/details/49422835转载 2021-01-05 19:38:01 · 608 阅读 · 0 评论 -
Spark Streaming
1.Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理,在Spark Streaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装DStream可以任务是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读取数据的不相同...原创 2019-08-29 00:42:49 · 155 阅读 · 0 评论 -
Flume HA的配置
在此处我们为了防止单点故障,把flume配置成HA的高可用1、首先准备3台机器,分别是hdp-01、hdp-02、hdp-03,其中hdp-01为source机器,而hdp-02、hdp-03为Flume高可用集群。2、我们先设置hdp-02、hdp-03两台机器。cd apps/flume/myconf/avro-hdfs.conf (此处source端为avro模式,sink端为hdf...原创 2019-09-02 16:03:21 · 683 阅读 · 0 评论 -
MongoDB数据库的基本操作
Linux系统安装mongDB数据库的yum源1、vi /etc/yum.conf*****修改keepcache=0为keepcache=1#配置mongo的yum源vi /etc/yum.repos.d/mongodb-org-3.4.repo[mongodb-org-3.4]name=MongoDB Repositorybaseurl=https://repo.mongo...原创 2019-09-05 01:27:11 · 217 阅读 · 0 评论 -
MongDB重启出现问题
1:首先要明白一点:/var/run/mongodb/mongod.pid exists 这个错误的出现不会因为此文件的删除而解决掉,因为权限不足,我们无法完全删除掉这个文件。所以我们首先要解决权限的问题。这一点我们可以在mongod.log信息中得到答案。通过sudo more /var/log/mongodb/mongod.log可以查看详情2:如果我们修改了MongoDB的数据存放...原创 2019-09-06 15:15:59 · 251 阅读 · 0 评论 -
Nginx
一:单机Nginx的安装1.上传nginx安装包2.解压nginx tar -zxvf nginx-1.12.2.tar.gz -C /usr/local/src/3.进入到nginx的源码目录 cd /usr/local/src/nginx-1.12.2/4.预编译 ./configure5.安静gcc编译器 yum -y install gcc ...原创 2019-09-09 00:51:27 · 204 阅读 · 0 评论 -
数据采集的大致流程(离线和实时)
一:离线数据的采集流程1、我们的数据从哪里来?互联网行业:网站、app、微信小程序、系统(交易系统。。)传统行业:电信,人们的上网、打电话、发短信等等数据数据源:网站、app、微信小程序都要往我们的后台去发送请求,获取数据,执行业务逻辑;app获取要展现的商品数据;发送请求到后台进行交易和结账网站/app会发送请求到后台服务器,通常会由Nginx接收请求,并进行转发2、后台服...原创 2019-09-18 21:27:13 · 9425 阅读 · 0 评论 -
scala中 object 和 class的区别
object在scala中没有静态方法和静态字段,所以在scala中可以用object来实现这些功能,直接用对象名调用的方法都是采用这种实现方式,例如Array.toString。对象的构造器在第一次使用的时候会被调用,如果一个对象从未被使用,那么他的构造器也不会被执行;对象本质上拥有类(scala中)的所有特性,除此之外,object还可以一扩展类以及一个或者多个特质:例如,abstra...转载 2019-10-10 16:01:32 · 343 阅读 · 0 评论 -
Flink
1、Flink中的Time在Flink的流式处理中,会涉及到时间的不同概念(按照顺序分析:数据先进入Flink——>算子执行——>数据生成)a、Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳【数据生成的时间】b、Ingestion Time:【是数据进入...原创 2019-10-10 22:28:54 · 166 阅读 · 0 评论 -
Spark SQL
1、Spark SQL 是 Spark 套件中的一个模块,他将数据的计算任务通过 SQL 的形式转换成了 RDD 的计算,类似于 Hive 通过 SQL 的形式将数据的计算任务传换成了MapReduce。2-1、Spark SQL 的特点: (1):和 Spark Core 的无缝集成,可以在写整个 RDD 应用的时候,配 Spark SQL 来实现逻辑。 (2):统一的数...原创 2019-08-26 19:15:54 · 718 阅读 · 0 评论