大数据_你的动作太慢了！的博客-CSDN博客

大数据

关注

文章平均质量分 96

关注数：文章数：18 文章阅读量：18405 文章收藏量：165

作者: 你的动作太慢了！

敲代码的速度跟我剑姬打破绽的速度一样快 ..

展开

SSSSSSSSSpark-core

data analytics fastboth fast to run and fast to wrtie

原创 2021-12-24 10:52:26 · 261 阅读 · 0 评论
scala

介绍：Scala 是 Scalable Language 的简写，是一门多范式的编程语言联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计Scala。Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言。大数据计算引擎Spark由Scala编写特点：特点Scal

原创 2021-12-24 10:47:09 · 233 阅读 · 0 评论
一起重新开始学大数据-数据采集工具篇-day 58 sqoop

一起重新开始学大数据-数据采集工具篇-day 57 sqoopSqoop简介概述将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具、官网： http://sqoop.apache.org/版本：（两个版本完全不兼容，sqoop1使用最多） sqoop1：1.4.x sqoop2：1.99.x同类产品 DataX：阿里顶级数据交换工具Sqoop安装 sqoop架构非常简单，是hadoop生态系统的架构最简单的框架。

原创 2021-09-25 19:41:18 · 280 阅读 · 0 评论
一起重新开始学大数据-Hbase篇-day 57 Hbase调优

一起重新开始学大数据-Hbase篇-day 57 Hbase调优????文章目录????1、预分区2、Rowkey设计①设计原则②热点问题3、In memory4、Max Version5、Compact&split6、BulkLoading①代码②说明1、预分区Pre-Creating Regions（预分区）概述：默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大

原创 2021-09-20 15:07:54 · 540 阅读 · 0 评论
一起重新开始学大数据-Hbase篇-day 56 Phoenix

一起重新开始学大数据-Hbase篇-day 56 Phoenix????文章目录????Phoenix概述1、Phoenix搭建及基本操作1、关闭hbase集群，在master中执行2、上传解压配置环境变量3、将phoenix-4.15.0-HBase-1.4-server.jar复制到所有节点的hbase lib目录下4、启动hbase ，在master中执行5、配置环境变量2、Phoenix使用1、连接sqlline2、常用命令3、phoenix表映射3.1、视图映射3.2、表映射3、Phoeni

原创 2021-09-20 11:57:40 · 177 阅读 · 0 评论
一起重新开始学大数据-Hbase篇-day 55 浅谈布隆过滤器、Hbase读写、Hbase的HA和Mapreduce读写Hbase数据

一起重新开始学大数据-Hbase篇-day 55 浅谈布隆过滤器、Hbase读写、Hbase的HA和Mapreduce读写Hbase数据目录浅谈布隆过滤器Hbase的读写Hbase的HA（高可用）Mapreduce读写Hbase数据浅谈布隆过滤器概述： Bloom Filter（布隆过滤器）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删

原创 2021-09-16 11:28:16 · 171 阅读 · 0 评论
一起重新开始学大数据-Hbase篇-day 54 Hbase介绍、shell、过滤器

一起重新开始学大数据-Hbase篇-day 54 Hbase基础知识前言 HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是

原创 2021-09-14 12:42:18 · 211 阅读 · 0 评论
一起重新开始学大数据-Hbase篇-day 53 Hbase安装及简析

一起重新开始学大数据-Hbase篇-day 53 Hbase安装及简析搭建Hbase1、启动hadoopstart-all.shweb验证是否开启http://master:50070jps验证是否开启2、启动zookeeper需要在在三台中分别启动zkServer.sh start验证是否开启zkServer.sh status开始搭建hbase1、上传解压配置环境变量tar -xvf hbase-1.4.6-bin.tar.gz -C /usr/local

原创 2021-09-12 20:56:16 · 217 阅读 · 0 评论
一起重新开始学大数据-hive篇-day 52 常用函数、复杂函数、行列互转、UDF自定义函数、HiveShell

Hive 常用函数关系运算等值比较 = == <=>不等值比较 != <><=>与=和==是等于的意思，<> 与!=都是不等于的意思，但是一般都是用<>来代表不等于，因为<>在任何SQL中都起作用，但是!=在sql2000中用到，则是语法错误，不兼容的（同理=和<=>也是）区间比较： select * from default.students where id between 1500100001

原创 2021-09-08 12:56:03 · 314 阅读 · 0 评论
一起重新开始学大数据-hive篇-day 51 数据类型、DDL、DML

一起重新开始学大数据-hadoop篇-day 51 数据类型、DDL、DMLSQL的小贴士（tips）：1、count(*)、count(1) 、count(‘字段名’) 区别 count(*)：所有行进行统计，包括NULL行 count(1)：所有行进行统计，包括NULL行 count(‘字段名’)：对字段中非Null进行统计结果差距不大但是受到集群影响执行时间有差异，执行时间：count(*)>count('字段名')count(1)2、HQL 执行优先级：fro

原创 2021-09-07 22:17:05 · 1173 阅读 · 4 评论
一起重新开始学大数据-hive篇-day 50 hive语法及进阶

Hive建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名，字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT table_comment] // 分区 [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] // 分桶 [CLUSTE

原创 2021-09-06 21:47:25 · 404 阅读 · 0 评论
一起重新开始学大数据-hive篇-day49 Hive简介和安装

一起重新开始学大数据-hadoop篇-day49 Hive简介和安装理论部分hive概述 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理

原创 2021-09-05 11:19:45 · 392 阅读 · 2 评论
一起重新开始学大数据-hadoop篇-day48 Yarn

一起重新开始学大数据-hadoop篇-day48 YarnYarnYarn概述yarn：资源调度系统运算资源：运算程序jar、配置文件、cpu、内存、IO 只负责程序运行所需资源的分配回收等调度任务，与应用程序的内部运作机制完全无关，所以yarn已经成为了通用资源调度平台，许许多多的运算框架都可以借助它来实现资源管理，such as ：MR、spark、storm、TEZ、Flink…yarn核心组件功能YARN ClientYARN Client提交Application到RM

原创 2021-09-05 10:15:58 · 376 阅读 · 0 评论
一起重新开始学大数据-hadoop篇-day47 mapreduce（总）

一起重新开始学大数据-hadoop篇-day47 mapreduce（总）MapReduce概述MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。Reduce阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapRe

原创 2021-09-05 09:22:45 · 314 阅读 · 0 评论
一起重新开始学大数据-hadoop篇-day46 Hdfs、yarn的HA，mapreduce（先导）

一起重新开始学大数据-hadoop篇-day46 Hdfs、yarn的HA，mapreduce（1）HA(高可用)HDFS的HA相较于Hadoop1.x ，Hadoop2.x中的HDFS增加了两个重要特性，HA和Federation。HA即为High Availability，用于解决NameNode单点故障问题，该特性通过热备的方式为主NameNode提供一个备用者，一旦主NameNode出现故障，可以迅速切换至备NameNode，从而实现不间断对外提供服务。Federation即为“联邦”，该

原创 2021-09-01 21:24:58 · 311 阅读 · 2 评论
一起重新开始学大数据-hadoop篇-Day45-hdfs解析和zookeeper安装

一起重新开始学大数据-hadoop篇-Day45-hadoop启动脚本详细启动脚本介绍第一种：全部启动集群所有进程启动：sbin/start-all.sh停止：sbin/stop-all.sh第二种：单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程启动：sbin/start-dfs.sh sbin/start-yarn.sh停止：sbin/stop-dfs.sh sbin/stop-yarn.sh每次重新启动集群的时候使用第三种：单独启动某一个进程

原创 2021-08-30 09:30:16 · 507 阅读 · 0 评论
HDFS常用命令与命令大全及其用法

最常用命令-ls 查看hdfs上目录，如 hdfs dfs -ls /-put 将本地文件上传到hdfs，如hdfs dfs -put 本地文件路径 hdfs路径-get 将hdfs文件下载到本地，如 hdfs dfs -get hdfs文件路径本地文件路径-mkdir 在hdfs 上创建文件夹，如hdfs dfs -mkdir /test-cp 将hdfs文件或目录复制如 hdfs dfs -cp /test.txt /a/-cat 查看hdfs上文件内容

原创 2021-08-30 09:23:02 · 12132 阅读 · 0 评论
一起重新开始学大数据-hadoop篇-Day44-Hadoop、hdfs概述架构简析，Hadoop集群搭建

一起重新开始学大数据-hadoop篇-Day44-Hadoop、hdfs概述架构简析，Hadoop集群搭建科普环节概念、名词科普Apache基金会是专门为支持开源软件项目而办的一个非盈利性组织服务器(节点)可以理解为我们的一台笔记本/台式机在这里可以认为是我们的一台虚拟机后面学习中，我们会把一台服务器称为一个节点机架负责存放服务器的架子Hadoop概述：Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。作者Doug Cutting 受Google三篇论文的启发

原创 2021-08-28 18:25:29 · 405 阅读 · 0 评论

大数据

作者: 你的动作太慢了！

SSSSSSSSSpark-core

scala

一起重新开始学大数据-数据采集工具篇-day 58 sqoop

一起重新开始学大数据-Hbase篇-day 57 Hbase调优

一起重新开始学大数据-Hbase篇-day 56 Phoenix

一起重新开始学大数据-Hbase篇-day 55 浅谈布隆过滤器、Hbase读写、Hbase的HA和Mapreduce读写Hbase数据

一起重新开始学大数据-Hbase篇-day 54 Hbase介绍、shell、过滤器

一起重新开始学大数据-Hbase篇-day 53 Hbase安装及简析

一起重新开始学大数据-hive篇-day 52 常用函数、复杂函数、行列互转、UDF自定义函数、HiveShell

一起重新开始学大数据-hive篇-day 51 数据类型 、DDL、DML

一起重新开始学大数据-hive篇-day 50 hive语法及进阶

一起重新开始学大数据-hive篇-day49 Hive简介和安装

一起重新开始学大数据-hadoop篇-day48 Yarn

一起重新开始学大数据-hadoop篇-day47 mapreduce（总）

一起重新开始学大数据-hadoop篇-day46 Hdfs、yarn的HA，mapreduce（先导）

一起重新开始学大数据-hadoop篇-Day45-hdfs解析和zookeeper安装

HDFS常用命令与命令大全及其用法

一起重新开始学大数据-hadoop篇-Day44-Hadoop、hdfs概述架构简析，Hadoop集群搭建

一起重新开始学大数据-hive篇-day 51 数据类型、DDL、DML