大数据
ChanZany
think twice code once
展开
-
一天时间搞定scala[仅针对spark开发]
一天时间搞定scala[仅针对spark开发]好久没写博客了,天气一热身上开始出现各种小毛病,苦不堪言,也希望广大程序员同胞能珍重身体,坚持锻炼。想学spark,但是又觉得又要学一门scala很繁琐?本着先学会用,再学会原理的心态,我花了一周时间整理了这篇博客,很干但是很高效(1天时间基本可以学完所有spark开发所需的scala知识,前提是掌握了java),希望对大家能够有些许参考价值。文章目录一天时间搞定scala[仅针对spark开发]scala是基于JVM的语言六大特性1. 与java无缝整合原创 2020-08-10 16:50:02 · 1004 阅读 · 0 评论 -
大数据之spark学习记录二: Spark的安装与上手
大数据之spark学习记录二: Spark的安装与上手文章目录大数据之spark学习记录二: Spark的安装与上手Spark安装本地模式Standalone 模式基本配置步骤1: 复制 spark, 并命名为spark-standalone步骤2: 进入配置文件目录conf, 配置spark-evn.sh步骤3: 修改 slaves 文件, 添加 worker 节点步骤4: 分发spark-standalone步骤5: 在master节点启动 Spark 集群配置 Spark 任务历史服务器(Stand原创 2020-07-12 00:31:24 · 361 阅读 · 0 评论 -
大数据之spark学习记录一 Intro
大数据之spark学习记录一: Intro文章目录大数据之spark学习记录一: Introspark与hadoop(MR)的对比和介绍Hadoopsparkspark与hadoop(MR)的对比和介绍Hadoop1.X 版本从架构的角度存在很多的问题NameNode是单点操作,所以容易出现单点故障,制约了HDFS的发展NameNode的内存限制也影响了HDFS的发展MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最好将结果写入原创 2020-07-12 00:11:16 · 251 阅读 · 0 评论 -
Scala学习day01:scala开发环境快速搭建
Scala学习day01:scala开发环境快速搭建文章目录Scala学习day01:scala开发环境快速搭建为什么学习ScalaScala与Java的关系Scala语言特点Scala环境搭建WindowsLinuxScala开发插件配置编写scala程序为什么学习Scala1)Spark—新一代内存级大数据计算框架,是大数据的重要内容。2)Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。3)Spark的兴起,带动了Scala语言的发展。Scal原创 2020-07-10 16:39:05 · 524 阅读 · 0 评论 -
大数据工具之Sqoop上手笔记
文章目录Sqoop的介绍Sqoop安装Sqoop的简单使用案例导入数据RDBMS到HDFSRDBMS到HiveRDBMS到Hbase导出数据HIVE/HDFS到RDBMS脚本打包Sqoop一些常用命令及参数常用命令命令&参数详解公用参数:数据库连接公用参数:import公用参数:export公用参数:hive特有参数:import特有参数:export参考Sqoop的介绍Sqoop是一种旨在在Hadoop与关系数据库或大型机之间传输数据的工具。您可以使用Sqoop从关系数据库管理系统(RDBMS原创 2020-07-02 11:32:55 · 1684 阅读 · 2 评论 -
HBase回顾六、蛇皮项目实战演练
HBase回顾六、 HBase实战参考自尚硅谷HBase教程http://www.atguigu.com/文章目录HBase回顾六、 HBase实战需求分析代码实现1 代码设计总览:2 创建命名空间以及各个表3 发布微博内容4 添加关注用户5 移除(取关)用户6 获取用户的初始化页面信息7 获取用户的所有微博需求分析微博内容的浏览,数据库表设计用户社交体现:关注用户,取关用户拉取关注的人的微博内容 代码实现1 代码设计总览:创建命名空间以及表名的定义创建微博内容原创 2020-06-25 17:41:57 · 444 阅读 · 0 评论 -
HBase回顾五、与Hive的集成
HBase回顾五、与Hive的集成文章目录HBase回顾五、与Hive的集成HBase与Hive的对比HBase与Hive集成的环境搭建集成初体验案例1:关联表的创建案例2:使用hive分析HBase表中的数据HBase与Hive的对比1.Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHiv原创 2020-06-22 19:02:57 · 297 阅读 · 0 评论 -
HBase回顾四、HBase集成MapReduce
HBase回顾四、HBase集成MapReduce通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中,比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。案例1要求:通过MapReduce对HBase中student表的数据复制到user表流程图分析:第一个案例很简单,只需要通过MR程序完成读写操作即可,而需要注意的时,因为数据的来源和去处都是HBase,所以需要利原创 2020-06-22 10:43:39 · 342 阅读 · 0 评论 -
HBase回顾三、JAVA_API操作
HBase回顾三、JAVA_API操作环境准备如果要通过java代码来操作hbase数据库,首先需要在项目中导入hbase提供的相关客户端操作jar包如maven.pom.xml所示:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance原创 2020-06-19 01:05:22 · 246 阅读 · 0 评论 -
HBase回顾二:安装部署、数据结构、shell操作
HBase回顾二:安装部署、数据结构、shell操作文章目录HBase回顾二:安装部署、数据结构、shell操作HBase安装部署HBase数据结构HBase shell操作HBase安装部署通过在前面的回顾,我们直到HBase是基于Zookeeper和HDFS来工作的,所以在安装部署HBase之前,要先确保Zookeeper和Hadoop已经安装并部署成功。Zookeeper安装Hadoop安装部署然后启动Hadoop和Zookeeper单点启动Zookeeper:先cd到Zookeepe原创 2020-06-17 12:40:36 · 259 阅读 · 0 评论 -
HBase回顾一:组成、架构、工作流程
HBase的组成首先HBase 的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。我们可以想象一张超级超级大的表,可能有几千列几亿行,这个数据量十分庞大,为了进行分布式存储和处理,所以我们要把表进行拆分。根据拆分的逻辑就有了HBase的组成:大表的拆分点击这里看原图也正是如上图所示的列拆分,所以HBase是面向列存储的数据库HBase 的组件[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VEt原创 2020-06-17 10:10:04 · 451 阅读 · 0 评论 -
hive尚硅谷实战案例统计youtube视频热度
谷粒影音案例背景及需求描述现有两个记录了关于youtube视频信息和用户信息的txt文件其中存放了视频信息的文件每行的字段如下所示:字段备注详细描述video id视频唯一 id11 位字符串uploader视频上传者上传视频的用户名 Stringage视频年龄视频在平台上的整数天category视频类别上传视频指定的视频分类length视频长度整形数字标识的视频长度views观看次数视频被浏览的次数rate流量视原创 2020-06-03 12:42:01 · 3151 阅读 · 2 评论 -
通过Hive的案例了解Hive在工作中的使用
通过Hive的案例了解Hive在工作中的使用笔者学习了HIve有一阵子时间了,但是碍于缺乏项目的实战,所以HQL写的总是别别扭扭,所幸通过一个案例似乎打通了一些对于HiveSQL使用的一些疑惑,故通过这个案例做个小小的总结。文章目录通过Hive的案例了解Hive在工作中的使用案例1:蚂蚁森林统计排名背景说明:需求描述1.蚂蚁森林植物申领统计需求1查询方案2. 蚂蚁森林低碳用户排名分析需求2查询方案1需求2查询方案2案例二:京东店铺热门统计需求1:需求1查询方案需求二需求二解决方案统计每个店铺的访客数统计原创 2020-06-02 13:05:08 · 964 阅读 · 0 评论 -
MapReduce开发总结-程序流程和典型实例
MapReduce开发总结通过思维导图的方式总结在MapReduce开发过程中需要明晰的一些知识点和一些示例代码导图已上传方便有缘人文章目录MapReduce开发总结MapReduce工作流程MapReduce 相关组件InputFormatMapperPartition分区Comparable排序Combiner合并GroupingComparator分组ReducerOutputFormatMapReduce工作流程MapReduce 相关组件InputFormatMapperPa原创 2020-05-21 15:53:05 · 358 阅读 · 0 评论 -
MapReduce实现数据的二级排序并统计指定字段
引言在搭建了hadoop集群后,可以把实现聚焦于业务的具体实现,以一个实例为引子,巩固mapreduce的编程实践。如何配置hadoop集群,且看上一篇博客文章目录引言对运营商基站数据进行排序、统计。MapReduce工作流程MapTask工作机制ReduceTask工作机制明确目标:DataBean和TimeUtil的定义TimeUtilsDataBeanMapper和Reducer的定义MapperReducerDriver的定义在排序的基础上完成统计SumDataBeanDataAggregat原创 2020-05-19 17:56:57 · 1137 阅读 · 0 评论 -
Hadoop三大组件之分布式文件操作系统HDFS实现原理及编程
HDFS—分布式文件系统解决海量数据的分布式存储和分布式处理问题分布式文件系统简介单机无法存储海量数据–>借助计算机集群分布式存储计算机集群基本架构文件系统结构(树结构)分为主节点和从节点主节点即NameNode:负责管理分布式数据的地址从节点即DataNode:负责存储分布式数据HDFS实现目标支持兼容廉价的硬件设备实现流数据读写支持...原创 2020-03-28 09:46:38 · 1139 阅读 · 0 评论 -
Hadoop集群搭建操作指南
A:搭建hadoop集群简直就是对生命的浪费笔者:哈哈辣鸡..我感觉搭建一个集群挺简单的啊,20分钟就搞定了A:练练?...笔者终于三天三夜后搭建好了一个简单的hadoop集群,留下了真香的泪水又过了两天,笔者总结出了这个hadoop集群搭建指南原创 2020-05-13 23:02:40 · 599 阅读 · 0 评论