2020年03月_云祁

原创【MongoDB】（三）MongoDB 基本操作

文章目录一、前言二、MongoDB的特点三、基本操作一、前言MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。在高负载的情况下，添加更多的节点，可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON ...

2020-03-31 17:47:52 2647 9

原创【Spark MLlib】（五）随机森林（Random Forest）分析

目前，Spark MLlib 中实现了 tree 相关的算法，决策树DT（DecisionTree），随机森林 RF（Random Forest），GBDT（Gradient Boosting Decision Tree），其基础都是RF，DT 是 RF 一棵树时的情况，而 GBDT 则是循环构建DT，GBDT与DT的代码是非常简单明了的，本文会对 Random Forest 进行分析，介绍 Spark 在实现过程中使用的一些技巧。

2020-03-30 19:57:45 5891 16

原创数据仓库系列（四）数仓架构以及多维数据模型的设计

最近看了《Hadoop构建数据仓库实践》这本书，收获很多，把一些关于数仓实践的心得我会写出来分享给大家，希望大家伙儿能互相学习，共同进步，☆⌒(*＾-゜)v THX!!

2020-03-29 13:21:36 4782 26

原创没想到 Kafka 还会这样问，学会这些带你轻松搞定大厂面试！

自上次师兄遭受了面试官 Kafka 的暴击追问后，回来发疯图强，企图“吊打面试官”，奈何还是面试官套路深啊，最近的面试，又被问到kafka的知识盲点了！让我们一起来看看，可怜的师兄又遇到了哪些让人头秃的问题 {{{(>_<)}}} ！

2020-03-28 16:26:23 3203 49

转载关于消息队列的使用

关于消息队列的使用一、消息队列概述消息队列中间件是分布式系统中重要的组件，主要解决应用解耦，异步消息，流量削锋等问题，实现高性能，高可用，可伸缩和最终一致性架构。目前使用较多的消息队列有Act...

2020-03-27 22:07:45 912 2

原创【Spark Streaming】（四）基于 Spark Structured Streaming 的开发与数据处理

文章目录一、前言二、Spark Streaming vs Structured Streaming2.1 Spark Streaming2.2 Structured Streaming2.3 区别2.3.1 流模型2.3.2 RDD vs DataFrame、DataSet2.3.3 Process Time vs Event Time2.3.4 可靠性保障2.3.5 sink2.4 总结三、Sp...

2020-03-25 21:06:53 3596 27

原创【Spark Streaming】（三）DStream 算子详解

文章目录一、前言二、Transformations on DStreams三、 Window Operations(窗口操作)四、Output Operations on DStreams(输出操作)一、前言Spark Streaming是核心Spark API的扩展，它支持对实时数据流进行可伸缩、高吞吐量和容错的流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多个源获...

2020-03-25 13:21:42 1564 8

原创【Hive】（二十四）谈谈 Hive 开发过程中需要注意的二三事？

文章目录一、前言二、建表规范2.1 LZO标准建表模板如下所示2.2 ORC标准建表模板如下所示三、字段类型使用 Hive 标准字段四、数据类型标准五、HDFS 目录规范5.1 表的 HDFS 目录与分区层级的名称和顺序保持一致5.2 表的 HDFS 目录中不能有特殊字符（只能包含字母、数字、=、-）一、前言主要讲讲一些 Hive 开发过程中需要注意的一些规范，大家可要注意┗|｀O′|┛ 嗷~...

2020-03-24 23:07:23 1191 9

原创【Spark Streaming】（二）DStream 编码实战

文章目录一、前言二、DStream 编程模型三、DStream 操作3.1 套接字流：通过监听 Socket 端口来接收数据3.2 文件流3.2 RDD队列流3.4 带状态的处理 StateFull一、前言从前一篇博客【Spark Streaming】（一）架构及工作原理 ????，我们了解到 Sprak Streaming 是属于 Saprk API 的扩展，它支持实时数据流（live data...

2020-03-24 14:13:08 3102 18

原创【Spark Streaming】（一）架构及工作原理

文章目录一、简介二、流处理架构三、Micro-Batch Architecture四、工作原理4.1 Streaming Context4.2 DStream4.3 Input DStreams & Receivers五、DStream 操作六、Spark Streaming 架构七、Spark Streaming 能做什么一、简介Spark Streaming 是一个对实时数据流进行...

2020-03-23 19:46:29 3325 10

原创【MongoDB】（二）MongoDB 是什么？看完你就知道了

一、概述1.MongoDB是什么？用一句话总结MongoDB是一款为web应用程序和互联网基础设施设计的数据库管理系统。没错MongoDB就是数据库，是NoSQL类型的数据库2.为什么要使用MongoDB？（1）MongoDB提出的是文档、集合的概念，使用BSON（类JSON）作为其数据模型结构，其结构是面向对象的而不是二维表，存储一个用户在MongoDB中是这样子的。｛ usern...

2020-03-22 10:49:57 1423 4

原创【MongoDB】（一）Linux 安装 MongoDB ，亲测完美！

安装过程1、到mongodb官网下载对应系统的压缩包，我的系统是Ubuntu16.04,64位。（注意不要选错系统版本，也可以在本地下载好后上传到云服务器）２、默认下载路径是到用户目录下的Downloads目录，将其解压tar -zxvf mongodb-linux-x86_64-3.2.12.tgz３、将解压后的文件夹移动到/usr/local/的mongodb目录下mv -r m...

2020-03-22 10:34:02 1398 1

转载大厂面试经常遇到的 HashMap & ConcurrentHashMap & HashTable ，让我们来看看都问了啥？

这篇博客（转载）内容整理自：我男神敖丙的系列文章敖丙

2020-03-21 23:14:10 1329 1

原创师兄面试遇到面试官的 Kafka 暴击三连问，快面哭了！

其实在今天的很多大厂面试里，都会要求能够熟练运用Apache Kafka等至少一种消息队列，Apache Kafka也是我们面试里的常客。在大多数人的印象中，写磁盘都是比较慢的，可是，为什么Apache Kafka在各大MQ性能的评测中，还能够击败众多对手，取得不错的成绩呢？通过师兄遇到的关于 Kafka 问题的暴击三连问，让我们一起走进师兄受伤的心

2020-03-21 17:22:04 10019 35

转载一起来看看HQL窗口函数在大厂热门数据分析题中的运用

在大佬的公众号【数据管道】上看到三道数据分析题，转载如下

2020-03-21 09:23:18 1601 4

转载 Phoenix 边讲架构边调优

一基础架构详解1 概念讲调优之前，需要大家深入了解phoenix的架构，这样才能更好的调优。Apache Phoenix在Hadoop中实现OLTP和运营分析，实现低延迟应用是通过结合下面两个优势：具有完整ACID事务功能的标准SQL和JDBC A...

2020-03-19 21:20:40 1260 2

转载 Hadoop 发行版本比较与选型

Apache hadoop：Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。称为社区版Hadoop。第三方发行版Hadoop：Hadoop遵从Apache开源协议，用户可以免费地任意使用和修...

2020-03-19 20:33:59 1297

转载 2020 BAT大厂数据挖掘面试经验：“高频面经”之数据结构与算法篇

目录1.什么是链表、队列、堆栈、树图？2.删除链表中重复的节点（剑指offer 83）3.两数相加（Leetcode 2）4.反转链表、环形链表、合并链表5.创建包含min函数的栈6.二叉树的最大（最小）树深7.二叉树的遍历8.通过前序和中序推后序（重建二叉树）9.二叉树的最近公共祖先（leetcode 236）10.电话号码的字母组合（leetcode 17）11.求1+2...

2020-03-19 13:06:30 1396

转载 2020 BAT大厂数据分析面试经验：“高频面经”之数据分析篇

目录1.Mysql中索引是什么？建立索引的目的？2.sql语句执行顺序？3.数据库与数据仓库的区别?4.OLTP和OLAP的区别？5.行存储和列存储的区别?6.Hive执行流程？7.Hive HDFS HBase区别？8.数仓中ODS、DW、DM概念及区别？9.窗口函数是什么？实现原理？10.数仓中维度建模含义？有哪几种模式？11.Hive数据倾斜表现、原因及处理？12.用...

2020-03-18 19:57:49 1942

转载 2020 BAT大厂数据开发面试经验：“高频面经”之大数据研发篇

目录1.linux常用命令2.Java虚拟机、垃圾回收机制3.TCP “三次握手”、 “四次挥手4.大数据常见组件5.HDFS存储机制6.MapReduce基本流程7.Hadoop Shffule原理8.Hadoop常用命令9.Hadoop优化10.Hadoop分片、分区11.Hive常用高阶命令12.Redis特性13.Redis、传统数据库、HBase、Hive区别...

2020-03-18 19:50:54 2132 2

原创师兄面试遇到这条 SQL 数据分析题，差点含泪而归！

师兄在面试时遇到了这条SQL题，回来我帮他参谋了下，觉得非常有意思，让我们一起来看看这道差点吊打师兄的笔试题吧！

2020-03-18 18:18:18 15938 40

原创 Hive 热门数据分析笔试题（干货满满，持续更新中...）

这篇博文通过五道经典的大厂数据分析笔试题，尽可能的让大家能更熟悉hive 窗口函数、自连接、行转列、列转行、TopN。

2020-03-18 17:22:01 6002 29

原创【Oozie】（三）Oozie 使用实战教学，带你快速上手！

文章目录案例一：Oozie调度shell脚本案例二：Oozie逻辑调度执行多个Job案例三：Oozie调度MapReduce任务案例四：Oozie定时任务/循环任务常见问题总结案例一：Oozie调度shell脚本目标：使用Oozie调度Shell脚本分步实现：1）解压官方案例模板[atguigu@hadoop102 oozie-4.0.0-cdh5.3.6]$ tar -zxvf ooz...

2020-03-18 13:21:54 1570

转载 TCP的三次握手与四次挥手理解及面试题

TCP的三次握手与四次挥手理解及面试题序列号seq：占4个字节，用来标记数据段的顺序，TCP把连接中发送的所有数据字节都编上一个序号，第一个字节的编号由本地随机产生；给字节编上序号后，就给每一个报文段指派一个序号；序列号seq就是这个报文段中的第一个字节的数据编号。确认号ack：占4个字节，期待收到对方下一个报文段的...

2020-03-17 23:39:22 825

原创【Hive】（二十三）简单几招教你如何解决 Hive 中小文件过多的问题

通常在大数据开发的过程中，我们会经常遇见小文件过多的情况，对查询和运算的性能都会有一定的影响，那么这篇文章将会帮助大家解决 hive 中小文件过多的问题 ????文章目录一、哪里会产生小文件 ?二、影响三、解决方法方法一：通过调整参数进行合并方法二：使用 distribute by rand() 将数据随机分配给 reduce方法三：使用 sequencefile 作为表存储格式，不要用 textfi...

2020-03-17 23:37:06 2956 26

原创【Hive】如何在 Hive 中创建外部表映射 Hbase 中已存在的表

文章目录一、上传完整的jar文件到hive/lib中二、修改hive-site.xml三、修改hive-env.sh四、在hive和hbase中分别创建相关联的表并通过hive向hbase表中加载数据五、在hive中创建外部表映射hbase中已存在的表六、特别注意一、上传完整的jar文件到hive/lib中删除hive/lib下所有文件解压上传hive所有的jar到该目录下二、修改hi...

2020-03-17 22:34:28 4960 1

原创【Oozie】（二）Oozie 架构及运行模型介绍

文章目录一、Oozie 框架简介二、Oozie 主要功能三、Oozie 内部结构简单分析 (Oozie Internals)四、Oozie 的水平可扩展性和垂直可扩展性五、Oozie 的Action执行模型(Action Execution Model)一、Oozie 框架简介Oozie单词释义：驯象人一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对Hadoop...

2020-03-16 13:34:46 1268

转载 MySQL性能优化(索引优化)

文章目录SQL的执行过程： 1. 客户端发送一条查询给服务器； 2. 服务器通过权限检查之后,先会检查查询缓存，如果命中了缓存，则立即返回存储在缓存中的结果。否则进入下一阶段； 3. 服务器端进行SQL解析、预处理，再由优化器根据该SQL所涉及到的数据表...

2020-03-15 22:59:15 968

原创【Hive】笔试题 05 （求月销售额和总销售额）

文章目录1、数据说明（1）数据格式（2）字段含义2、数据准备（1）创建数据库表t_store（2）导入数据3、需求4、解析（1）按照商店名称和月份进行分组统计（2）对tmp_store1 表里面的数据进行自连接（3）比较统计1、数据说明（1）数据格式a,01,150a,01,200b,01,1000b,01,800c,01,250c,01,220b,01,6000a,02,20...

2020-03-15 16:10:26 2488

原创【Hive】笔试题 04 （求学生选课情况）

文章目录1、数据说明（1）数据格式（2）字段含义2、数据准备（1）建表t_course（2）导入数据3、需求4、解析1、数据说明（1）数据格式id course 1,a 1,b 1,c 1,e 2,a 2,c 2,d 2,f 3,a 3,b 3,c 3,e（2）字段含义表示有id为1,2,3的学生选修了课程a,b,c,d,e,f中其中几门。2、数据准备（1）...

2020-03-15 15:44:35 2576 2

原创【Hive】笔试题 03 （求每一年最大气温的那一天 + 温度）

背景是求每一年最大气温的那一天 + 温度文章目录1、说明2、需求3、解析（1）创建一个临时表tmp_weather，将数据切分（2）创建一个临时表tmp_year_weather（3）将2个临时表进行连接查询1、说明具体数据201401021620140104102012010609201201081220120110232001010212200101041120130...

2020-03-15 15:19:12 1791 5

原创【Hive】笔试题 02 （列转行）

题目背景是分析学生课程成绩，相关数据如下：文章目录1、说明2、需求1、使用case...when...将不同的课程名称转换成不同的列2、以sid分组合并取各成绩最大值3、比较结果1、说明use myhive;CREATE TABLE `course` ( `id` int, `sid` int , `course` string, `score` int ) ;// ...

2020-03-15 14:44:41 2503

转载 Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)

摘要：本文由 bilibili 大数据实时平台负责人郑志升分享，基于对 bilibili 实时计算的痛点分析，详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面：一、实时计算的痛点二、Saber 的平台演进三、结合 AI 的案例实践四、未来的发展与思考一、实时计算的痛点 1.痛点各个业务部门进行业务研发时都有实时计算的...

2020-03-14 16:58:12 1735

原创【Spark MLlib】（四）K-Means 聚类分析

使用 Spark 机器学习库来做机器学习工作，可以说是非常的简单，通常只需要在对原始数据进行处理后，然后直接调用相应的 API 就可以实现。但是要想选择合适的算法，高效准确地对数据进行分析，可能还需要深入了解下算法原理，以及相应 Spark MLlib API 实现的参数的意义，本文带你了解 K-means 聚类算法。文章目录一、K-means 聚类算法原理二、K-means 实现三、K值的选择...

2020-03-14 16:15:54 1452

原创【Spark ML】（二）Spark ML 分类算法

主要讲Spark ML中关于分类算法的实现。示例的算法Demo包含：LR、DT、RF、GBTs、多层感知器、线性支持向量机、One-vs-Rest分类器以及NB等。文章目录1. Logistic regression1.1 二分类LR1.2 多分类LR2. 决策树分类器3. 随机森林分类器4. 梯度提升树分类器5. 多层感知器分类器6. 线性支持向量机7. One-vs-Rest分类器8. 朴素...

2020-03-14 15:42:11 2350 1

转载【Spark MLlib】（三）Spark MLlib 数据基础

文章目录一、矩阵向量计算二、分类效果评估指标三、交叉-验证方法一、矩阵向量计算Spark MLlib底层的向量、矩阵运算使用了Breeze库，Breeze库提供了Vector/Matrix的实现以及相应计算的接口（Linalg）。但是在MLlib里面同事也提供了Vector和Linalg等的实现。1、Breeze创建函数2、Breeze元素访问 3、Breeze元素操作&n...

2020-03-14 10:02:24 1366

转载【Spark MLlib】（二）Spark MLlib 特征工程 - 提取、转换和选择

Spark MLlib中关于特征处理的相关算法，大致分为以下几组：提取(Extraction)：从“原始”数据中提取特征转换(Transformation)：缩放，转换或修改特征选择(Selection)：从较大的一组特征中选择一个子集局部敏感哈希(Locality Sensitive Hashing，LSH)：这类算法将特征变换的各个方面与其他算法相结合。文章目录一、特征的提取1....

2020-03-13 22:46:47 2132 2

原创【Spark ML】（一）Spark ML Pipelines

Spark ML Pipeline 的引入，是受到 scikit-learn 的启发，虽然 MLlib 已经足够简单实用，但如果目标数据集结构复杂，需要多次处理，或是在学习过程中，要使用多个转化器 (Transformer) 和预测器 (Estimator)，这种情况下使用 MLlib 将会让程序结构极其复杂。所以，一个可用于构建复杂机器学习工作流应用的新库已经出现了，它就是 Spark 1.2...

2020-03-13 14:16:30 4090 10

转载【Spark】（十）详解 Spark DataSet

文章目录一、前言二、创建SparkSession三、DataSet/DataFrame的创建四、DataSet 基础函数五、DataSet 的 Actions 操作六、DataSet 的转化操作七、DataSet 的内置函数八、例子：WordCount一、前言Spark的发展史可以简单概括为三个阶段，分别为：RDD、DataFrame 和DataSet。在Spark 2.0之前，使用Spark...

2020-03-13 12:55:06 2225

原创【Spark】Spark 与 Hadoop MR 之间的区别

首先Spark是借鉴了mapreduce并在其基础上发展起来的，继承了其分布式计算的优点并改进了mapreduce明显的缺陷，但是二者也有不少的差异具体如下：1、spark把运算的中间数据存放在内存，迭代计算效率更高；mapreduce的中间结果需要落地，需要保存到磁盘，这样必然会有磁盘io操做，影响性能。2、spark容错性高，它通过弹性分布式数据集RDD来实现高效容错，RDD是...

2020-03-12 23:15:46 1527 1

阿里云云计算ACP.xmind

阿里云大数据ACP.xmind

空空如也