自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云祁QI

人生,海海,破浪前行。

  • 博客(62)
  • 资源 (2)
  • 收藏
  • 关注

原创 【MongoDB】(三)MongoDB 基本操作

文章目录一、前言二、MongoDB的特点三、基本操作一、前言MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON ...

2020-03-31 17:47:52 2647 9

原创 【Spark MLlib】(五)随机森林(Random Forest)分析

目前,Spark MLlib 中实现了 tree 相关的算法,决策树DT(DecisionTree),随机森林 RF(Random Forest),GBDT(Gradient Boosting Decision Tree),其基础都是RF,DT 是 RF 一棵树时的情况,而 GBDT 则是循环构建DT,GBDT与DT的代码是非常简单明了的,本文会对 Random Forest 进行分析,介绍 Spark 在实现过程中使用的一些技巧。

2020-03-30 19:57:45 5891 16

原创 数据仓库系列(四)数仓架构以及多维数据模型的设计

最近看了《Hadoop构建数据仓库实践》这本书,收获很多,把一些关于数仓实践的心得我会写出来分享给大家,希望大家伙儿能互相学习,共同进步,☆⌒(*^-゜)v THX!!

2020-03-29 13:21:36 4782 26

原创 没想到 Kafka 还会这样问,学会这些带你轻松搞定大厂面试!

自上次师兄遭受了面试官 Kafka 的暴击追问后,回来发疯图强,企图“吊打面试官”,奈何还是面试官套路深啊,最近的面试,又被问到kafka的知识盲点了!让我们一起来看看,可怜的师兄又遇到了哪些让人头秃的问题 {{{(>_<)}}} !

2020-03-28 16:26:23 3203 49

转载 关于消息队列的使用

关于消息队列的使用一、消息队列概述消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有Act...

2020-03-27 22:07:45 912 2

原创 【Spark Streaming】(四)基于 Spark Structured Streaming 的开发与数据处理

文章目录一、前言二、Spark Streaming vs Structured Streaming2.1 Spark Streaming2.2 Structured Streaming2.3 区别2.3.1 流模型2.3.2 RDD vs DataFrame、DataSet2.3.3 Process Time vs Event Time2.3.4 可靠性保障2.3.5 sink2.4 总结三、Sp...

2020-03-25 21:06:53 3596 27

原创 【Spark Streaming】(三)DStream 算子详解

文章目录一、前言二、Transformations on DStreams三、 Window Operations(窗口操作)四、Output Operations on DStreams(输出操作)一、前言Spark Streaming是核心Spark API的扩展,它支持对实时数据流进行可伸缩、高吞吐量和容错的流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多个源获...

2020-03-25 13:21:42 1564 8

原创 【Hive】(二十四)谈谈 Hive 开发过程中需要注意的二三事?

文章目录一、前言二、建表规范2.1 LZO标准建表模板如下所示2.2 ORC标准建表模板如下所示三、字段类型使用 Hive 标准字段四、数据类型标准五、HDFS 目录规范5.1 表的 HDFS 目录与分区层级的名称和顺序保持一致5.2 表的 HDFS 目录中不能有特殊字符(只能包含字母、数字、=、-)一、前言主要讲讲一些 Hive 开发过程中需要注意的一些规范,大家可要注意┗|`O′|┛ 嗷~...

2020-03-24 23:07:23 1191 9

原创 【Spark Streaming】(二)DStream 编码实战

文章目录一、前言二、DStream 编程模型三、DStream 操作3.1 套接字流:通过监听 Socket 端口来接收数据3.2 文件流3.2 RDD队列流3.4 带状态的处理 StateFull一、前言从前一篇博客 【Spark Streaming】(一)架构及工作原理 ????,我们了解到 Sprak Streaming 是属于 Saprk API 的扩展,它支持实时数据流(live data...

2020-03-24 14:13:08 3102 18

原创 【Spark Streaming】(一)架构及工作原理

文章目录一、简介二、流处理架构三、Micro-Batch Architecture四、工作原理4.1 Streaming Context4.2 DStream4.3 Input DStreams & Receivers五、DStream 操作六、Spark Streaming 架构七、Spark Streaming 能做什么一、简介Spark Streaming 是一个对实时数据流进行...

2020-03-23 19:46:29 3325 10

原创 【MongoDB】(二)MongoDB 是什么?看完你就知道了

一、概述1.MongoDB是什么?用一句话总结MongoDB是一款为web应用程序和互联网基础设施设计的数据库管理系统。没错MongoDB就是数据库,是NoSQL类型的数据库2.为什么要使用MongoDB?(1)MongoDB提出的是文档、集合的概念,使用BSON(类JSON)作为其数据模型结构,其结构是面向对象的而不是二维表,存储一个用户在MongoDB中是这样子的。{ usern...

2020-03-22 10:49:57 1423 4

原创 【MongoDB】(一)Linux 安装 MongoDB ,亲测完美!

安装过程1、 到mongodb官网下载对应系统的压缩包,我的系统是Ubuntu16.04,64位。(注意不要选错系统版本,也可以在本地下载好后上传到云服务器)2、默认下载路径是到用户目录下的Downloads目录,将其解压tar -zxvf mongodb-linux-x86_64-3.2.12.tgz3、将解压后的文件夹移动到/usr/local/的mongodb目录下mv -r m...

2020-03-22 10:34:02 1398 1

转载 大厂面试经常遇到的 HashMap & ConcurrentHashMap & HashTable ,让我们来看看都问了啥?

这篇博客(转载)内容整理自 :我男神敖丙的系列文章 敖丙

2020-03-21 23:14:10 1329 1

原创 师兄面试遇到面试官的 Kafka 暴击三连问,快面哭了!

其实在今天的很多大厂面试里,都会要求能够熟练运用Apache Kafka等至少一种消息队列,Apache Kafka也是我们面试里的常客。在大多数人的印象中,写磁盘都是比较慢的,可是,为什么Apache Kafka在各大MQ性能的评测中,还能够击败众多对手,取得不错的成绩呢?通过师兄遇到的关于 Kafka 问题的暴击三连问 ,让我们一起走进师兄受伤的心

2020-03-21 17:22:04 10019 35

转载 一起来看看HQL窗口函数在大厂热门数据分析题中的运用

在大佬的公众号【数据管道】上看到三道数据分析题,转载如下

2020-03-21 09:23:18 1601 4

转载 Phoenix 边讲架构边调优

一 基础架构详解1  概念讲调优之前,需要大家深入了解phoenix的架构,这样才能更好的调优。Apache Phoenix在Hadoop中实现OLTP和运营分析,实现低延迟应用是通过结合下面两个优势:具有完整ACID事务功能的标准SQL和JDBC A...

2020-03-19 21:20:40 1260 2

转载 Hadoop 发行版本比较与选型

Apache hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。称为社区版Hadoop。第三方发行版Hadoop:Hadoop遵从Apache开源协议,用户可以免费地任意使用和修...

2020-03-19 20:33:59 1297

转载 2020 BAT大厂数据挖掘面试经验:“高频面经”之数据结构与算法篇

目录1.什么是链表、队列、堆栈、树图?2.删除链表中重复的节点(剑指offer 83)3.两数相加(Leetcode 2)4.反转链表、环形链表、合并链表5.创建包含min函数的栈6.二叉树的最大(最小)树深7.二叉树的遍历8.通过前序和中序推后序(重建二叉树)9.二叉树的最近公共祖先(leetcode 236)10.电话号码的字母组合(leetcode 17)11.求1+2...

2020-03-19 13:06:30 1396

转载 2020 BAT大厂数据分析面试经验:“高频面经”之数据分析篇

目录1.Mysql中索引是什么?建立索引的目的?2.sql语句执行顺序?3.数据库与数据仓库的区别?4.OLTP和OLAP的区别?5.行存储和列存储的区别?6.Hive执行流程?7.Hive HDFS HBase区别?8.数仓中ODS、DW、DM概念及区别?9.窗口函数是什么?实现原理?10.数仓中维度建模含义?有哪几种模式?11.Hive数据倾斜表现、原因及处理?12.用...

2020-03-18 19:57:49 1942

转载 2020 BAT大厂数据开发面试经验:“高频面经”之大数据研发篇

目录1.linux常用命令2.Java虚拟机、垃圾回收机制3.TCP “三次握手”、 “四次挥手4.大数据常见组件5.HDFS存储机制6.MapReduce基本流程7.Hadoop Shffule原理8.Hadoop常用命令9.Hadoop优化10.Hadoop分片、分区11.Hive常用高阶命令12.Redis特性13.Redis、传统数据库、HBase、Hive区别...

2020-03-18 19:50:54 2132 2

原创 师兄面试遇到这条 SQL 数据分析题,差点含泪而归!

师兄在面试时遇到了这条SQL题,回来我帮他参谋了下,觉得非常有意思,让我们一起来看看这道差点吊打师兄的笔试题吧!

2020-03-18 18:18:18 15938 40

原创 Hive 热门数据分析笔试题(干货满满,持续更新中...)

这篇博文通过五道经典的大厂数据分析笔试题,尽可能的让大家能更熟悉hive 窗口函数、自连接、行转列、列转行、TopN。

2020-03-18 17:22:01 6002 29

原创 【Oozie】(三)Oozie 使用实战教学,带你快速上手!

文章目录案例一:Oozie调度shell脚本案例二:Oozie逻辑调度执行多个Job案例三:Oozie调度MapReduce任务案例四:Oozie定时任务/循环任务常见问题总结案例一:Oozie调度shell脚本目标:使用Oozie调度Shell脚本分步实现:1)解压官方案例模板[atguigu@hadoop102 oozie-4.0.0-cdh5.3.6]$ tar -zxvf ooz...

2020-03-18 13:21:54 1570

转载 TCP的三次握手与四次挥手理解及面试题

TCP的三次握手与四次挥手理解及面试题    序列号seq:占4个字节,用来标记数据段的顺序,TCP把连接中发送的所有数据字节都编上一个序号,第一个字节的编号由本地随机产生;给字节编上序号后,就给每一个报文段指派一个序号;序列号seq就是这个报文段中的第一个字节的数据编号。    确认号ack:占4个字节,期待收到对方下一个报文段的...

2020-03-17 23:39:22 825

原创 【Hive】(二十三)简单几招教你如何解决 Hive 中小文件过多的问题

通常在大数据开发的过程中,我们会经常遇见小文件过多的情况,对查询和运算的性能都会有一定的影响,那么这篇文章将会帮助大家解决 hive 中小文件过多的问题 ????文章目录一、哪里会产生小文件 ?二、影响三、解决方法方法一:通过调整参数进行合并方法二:使用 distribute by rand() 将数据随机分配给 reduce方法三:使用 sequencefile 作为表存储格式,不要用 textfi...

2020-03-17 23:37:06 2956 26

原创 【Hive】如何在 Hive 中创建外部表映射 Hbase 中已存在的表

文章目录一、上传完整的jar文件到hive/lib中二、修改hive-site.xml三、修改hive-env.sh四、在hive和hbase中分别创建相关联的表并通过hive向hbase表中加载数据五、在hive中创建外部表映射hbase中已存在的表六、特别注意一、上传完整的jar文件到hive/lib中删除hive/lib下所有文件解压上传hive所有的jar到该目录下二、修改hi...

2020-03-17 22:34:28 4960 1

原创 【Oozie】(二)Oozie 架构及运行模型介绍

文章目录一、Oozie 框架简介二、Oozie 主要功能三、Oozie 内部结构简单分析 (Oozie Internals)四、Oozie 的水平可扩展性和垂直可扩展性五、Oozie 的Action执行模型(Action Execution Model)一、Oozie 框架简介Oozie单词释义:驯象人一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop...

2020-03-16 13:34:46 1268

转载 MySQL性能优化(索引优化)

文章目录SQL的执行过程:    1. 客户端发送一条查询给服务器;    2. 服务器通过权限检查之后,先会检查查询缓存,如果命中了缓存,则立即返回存储在缓存中的结果。否则进入下一阶段;    3. 服务器端进行SQL解析、预处理,再由优化器根据该SQL所涉及到的数据表...

2020-03-15 22:59:15 968

原创 【Hive】笔试题 05 (求月销售额和总销售额)

文章目录1、数据说明(1)数据格式(2)字段含义2、数据准备(1)创建数据库表t_store(2)导入数据3、需求4、解析(1)按照商店名称和月份进行分组统计(2)对tmp_store1 表里面的数据进行自连接(3)比较统计1、数据说明(1)数据格式a,01,150a,01,200b,01,1000b,01,800c,01,250c,01,220b,01,6000a,02,20...

2020-03-15 16:10:26 2488

原创 【Hive】笔试题 04 (求学生选课情况)

文章目录1、数据说明(1)数据格式(2)字段含义2、数据准备(1)建表t_course(2)导入数据3、需求4、解析1、数据说明(1)数据格式id course 1,a 1,b 1,c 1,e 2,a 2,c 2,d 2,f 3,a 3,b 3,c 3,e(2)字段含义表示有id为1,2,3的学生选修了课程a,b,c,d,e,f中其中几门。2、数据准备(1)...

2020-03-15 15:44:35 2576 2

原创 【Hive】笔试题 03 (求每一年最大气温的那一天 + 温度)

背景是求每一年最大气温的那一天 + 温度文章目录1、说明2、 需求3、解析(1)创建一个临时表tmp_weather,将数据切分(2)创建一个临时表tmp_year_weather(3)将2个临时表进行连接查询1、说明具体数据201401021620140104102012010609201201081220120110232001010212200101041120130...

2020-03-15 15:19:12 1791 5

原创 【Hive】笔试题 02 (列转行)

题目背景是分析学生课程成绩,相关数据如下:文章目录1、说明2、需求1、使用case...when...将不同的课程名称转换成不同的列2、以sid分组合并取各成绩最大值3、比较结果1、说明use myhive;CREATE TABLE `course` ( `id` int, `sid` int , `course` string, `score` int ) ;// ...

2020-03-15 14:44:41 2503

转载 Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)

摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:一、实时计算的痛点二、Saber 的平台演进三、结合 AI 的案例实践四、未来的发展与思考一、实时计算的痛点 1.痛点各个业务部门进行业务研发时都有实时计算的...

2020-03-14 16:58:12 1735

原创 【Spark MLlib】(四)K-Means 聚类分析

使用 Spark 机器学习库来做机器学习工作,可以说是非常的简单,通常只需要在对原始数据进行处理后,然后直接调用相应的 API 就可以实现。但是要想选择合适的算法,高效准确地对数据进行分析,可能还需要深入了解下算法原理,以及相应 Spark MLlib API 实现的参数的意义,本文带你了解 K-means 聚类算法。文章目录一、K-means 聚类算法原理二、K-means 实现三、K值的选择...

2020-03-14 16:15:54 1452

原创 【Spark ML】(二)Spark ML 分类算法

主要讲Spark ML中关于分类算法的实现。示例的算法Demo包含:LR、DT、RF、GBTs、多层感知器、线性支持向量机、One-vs-Rest分类器以及NB等。文章目录1. Logistic regression1.1 二分类LR1.2 多分类LR2. 决策树分类器3. 随机森林分类器4. 梯度提升树分类器5. 多层感知器分类器6. 线性支持向量机7. One-vs-Rest分类器8. 朴素...

2020-03-14 15:42:11 2350 1

转载 【Spark MLlib】(三)Spark MLlib 数据基础

文章目录一、矩阵向量计算二、分类效果评估指标三、交叉-验证方法一、矩阵向量计算Spark MLlib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同事也提供了Vector和Linalg等的实现。1、Breeze创建函数2、Breeze元素访问 3、Breeze元素操作&n...

2020-03-14 10:02:24 1366

转载 【Spark MLlib】(二)Spark MLlib 特征工程 - 提取、转换和选择

Spark MLlib中关于特征处理的相关算法,大致分为以下几组:提取(Extraction):从“原始”数据中提取特征转换(Transformation):缩放,转换或修改特征选择(Selection):从较大的一组特征中选择一个子集局部敏感哈希(Locality Sensitive Hashing,LSH):这类算法将特征变换的各个方面与其他算法相结合。文章目录一、特征的提取1....

2020-03-13 22:46:47 2132 2

原创 【Spark ML】(一)Spark ML Pipelines

Spark ML Pipeline 的引入,是受到 scikit-learn 的启发,虽然 MLlib 已经足够简单实用,但如果目标数据集结构复杂,需要多次处理,或是在学习过程中,要使用多个转化器 (Transformer) 和预测器 (Estimator),这种情况下使用 MLlib 将会让程序结构极其复杂。所以,一个可用于构建复杂机器学习工作流应用的新库已经出现了,它就是 Spark 1.2...

2020-03-13 14:16:30 4090 10

转载 【Spark】(十)详解 Spark DataSet

文章目录一、前言二、创建SparkSession三、DataSet/DataFrame的创建四、DataSet 基础函数五、DataSet 的 Actions 操作六、DataSet 的转化操作七、DataSet 的内置函数八、例子:WordCount一、前言Spark的发展史可以简单概括为三个阶段,分别为:RDD、DataFrame 和DataSet。在Spark 2.0之前,使用Spark...

2020-03-13 12:55:06 2225

原创 【Spark】Spark 与 Hadoop MR 之间的区别

首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce明显的缺陷,但是二者也有不少的差异具体如下:1、spark把运算的中间数据存放在内存,迭代计算效率更高;mapreduce的中间结果需要落地,需要保存到磁盘,这样必然会有磁盘io操做,影响性能。2、spark容错性高,它通过弹性分布式数据集RDD来实现高效容错,RDD是...

2020-03-12 23:15:46 1527 1

阿里云云计算ACP.xmind

阿里云云计算ACP认证学习思维导图,个人整理的,分享给大家。阿里云云计算专业认证考试(Alibaba Cloud Certified Professional,ACP)是面向使用阿里云云计算产品的架构、开发、运维人员的专业技术认证。

2020-05-27

阿里云大数据ACP.xmind

阿里云大数据ACP认证考试思维导图,本人学习考证过程中亲自整理的,耗时一周,都是精华所在,阿里云大数据ACP考试认证应该会有帮助。

2020-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除