大数据
文章平均质量分 85
最详细的保姆级的大数据内容
学无止境的大象
这个作者很懒,什么都没留下…
展开
-
大数据----31.hbase安装启动
http://archive.apache.org/dist/hbase/ 下载地址。8. 通过web来访问:http://192.168.64.160:16010/(在一台机器上进行配置;注意:在启动之前需要进行时间的统一;(我们使用的是和主节点的时间同步;3.解压软件:解压到/usr/local/ 文件夹 (在一台机器上)2.启动hbase(在hadoop06上执行) 在主机上启动即可;需要修改的内容:(分别开启他的注释修改内容即可;6.进行hbase的配置文件的修改操作:修改文件。原创 2023-12-12 19:49:21 · 1599 阅读 · 0 评论 -
大数据---29.Hive 自定义函数
Hive 自定义函数(临时函数和永久函数)原创 2022-08-09 10:32:20 · 3786 阅读 · 2 评论 -
大数据---29. hive TOPN (影评案例分析)
影评信息统计;原创 2022-08-03 14:13:33 · 1661 阅读 · 0 评论 -
大数据---29. hive的常用函数(三) json解析
hive的常用函数(三) json解析原创 2022-08-02 07:53:33 · 649 阅读 · 0 评论 -
大数据---29. hive的常用函数(二)
hive的常用函数(二)原创 2022-07-31 16:56:36 · 597 阅读 · 0 评论 -
大数据---29. hive的常用函数(一(最全的函数操作))
hive的常用函数(一(最全的函数操作))原创 2022-07-29 08:33:54 · 7923 阅读 · 0 评论 -
大数据---28. hive的数据类型和特殊数据处理
hive支持两种数据类型原始数据类型原创 2022-07-26 18:17:57 · 4545 阅读 · 0 评论 -
大数据---26.Hive表中数据导入导出
HIve中导入、导出数据的几种方式原创 2022-06-06 21:16:18 · 1753 阅读 · 0 评论 -
大数据---24.Hive的连接三种连接方式
hive的三种连接方式原创 2022-06-01 09:50:06 · 9364 阅读 · 0 评论 -
大数据---23.Hive安装之本地模式和远程模式
hive的安装方式---本地安装和远程模式的安装原创 2022-06-01 08:56:27 · 1297 阅读 · 0 评论 -
大数据---22. Hive的安装模式(linux--嵌入模式)
hive的嵌入式安装方式原创 2022-05-31 12:10:27 · 1150 阅读 · 0 评论 -
大数据---20.Hive基础介绍
hive,hive的基本原理;hive的运行过程原创 2022-05-24 11:36:13 · 3490 阅读 · 0 评论 -
大数据---17.MapReduce实现共同好友(好友关系图实现)
MapReduce实现共同好友(好友关系图实现—倚天屠龙记关系)原创 2022-04-22 10:21:26 · 2412 阅读 · 0 评论 -
大数据---16.MapReduce的数据去重复操作实例
MapReduce的数据去重复原创 2022-04-19 12:09:12 · 3386 阅读 · 0 评论 -
大数据--- 14.MapReduce的本地操作和集群计算与打包到hadoop运行
MapReduce实现手机销量统计原创 2022-04-19 10:28:51 · 3382 阅读 · 0 评论 -
大数据---15.Mapreduce案例之---统计手机号耗费的总上行流量、下行流量、总流量
MapReduce的封装对象的例子原创 2022-04-19 10:09:14 · 7210 阅读 · 2 评论 -
大数据----12.MapReduce计算框架
1. MapReduce基本编程模型和框架1.1 MapReduce抽象模型大数据计算的核心思想是:分而治之。如下图所示。把大量的数据划分开来,分配给各个子任务来完成。再将结果合并到一起输出。注:如果数据的耦合性很高,不能分离,那么这种并行计算就不合适了。1.2 Hadoop的MapReduce的并行编程模型如下图2所示,Hadoop的MapReduce先将数据划分为多个key/value键值对。然后输入Map框架来得到新的key/value对,这时候只是中间结果,这个时候的value值是个集合。原创 2021-08-21 12:26:08 · 1084 阅读 · 0 评论 -
大数据----5.HDFS基本概念和底层分析
HDFS基本概念1. HDFS前言l 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;l 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark……)提供数据存储服务l 重点概念:文件切块,副本存放,元数据2. HDFS的概念和特性2.1****它是一个文件系统用于存储文件,通过统一的命名空间——目录树来定位文件2.2****它是分布式的由很多服务器联合起来实现其功能,集群中的服务器有各自的角色2原创 2021-08-17 17:52:02 · 639 阅读 · 0 评论 -
大数据----4.(1)Hadoop 2.x与Hadoop 3.x比较
Hadoop 2.x与Hadoop 3.x比较本节将讲述Hadoop 2.x与Hadoop 3.x之间的22个差异。 现在让我们逐一讨论2.1LicenseHadoop 2.x - Apache 2.0,开源Hadoop 3.x - Apache 2.0,开源2.2支持的最低Java版本Hadoop 2.x - java的最低支持版本是java 7Hadoop 3.x - java的最低支持版本是java 82.3容错Hadoop 2.x - 可以通过复制(浪费空间)来处理容错。Hado原创 2021-08-17 17:36:09 · 695 阅读 · 0 评论 -
大数据----13.MapReduce前置程序设计
MapReduce前置程序设计1.先用java程序单机版进行模拟统计操作:例子:我们日常的全国有很多的手机店,那么每天都有卖到的手机的销量;假如我们把他们认为做成大数据, 全国的销量进行统计;1.我们先用程序随机一个文件来存储我们的手机品牌:我们模拟300万条数据;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;im原创 2021-08-22 22:21:46 · 169 阅读 · 0 评论 -
大数据---7.高可用介绍
大数据技术—HA 高可用高可用性H.A.(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。它与被认为是不间断操作的容错技术有所不同。HA系统是企业防止核心计算机系统因故障停机的最有效手段。高可用程序的类型主从方式(冷备)两个相同的应用程序,一个对外提供服务,成为主程序,另一个平时不运行为备程序,就是一个主程序的备份,一旦主程序出现问题,备份提供恢复操作双主互备(热备)两个相同的应用程序,同时对外提供原创 2021-08-18 19:08:03 · 1012 阅读 · 0 评论 -
大数据----2.基础环境搭建
大数据hadoop环境搭建原创 2021-05-26 10:46:13 · 1166 阅读 · 0 评论 -
大数据----4.hadoop分布式框架搭建
hadoop分布式框架搭建一、Hadoop的三种运行模式(启动模式)1.1、单机模式(独立模式)(Local或Standalone Mode)-默认情况下,Hadoop即处于该模式,用于开发和调式。-不对配置文件进行修改。 -使用本地文件系统,而不是分布式文件系统。 -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。 -用于对MapReduce程序的逻辑进行调原创 2021-08-17 11:22:54 · 731 阅读 · 0 评论 -
大数据入门---1.大数据介绍
大数据的介绍无处不在的大数据大数据的爆炸式增长大数据的特征大数据与我们的生活息息相关思考:那么我们如何对这些数据进项存储与分析呢?我们的hadoop就是在这样的场景下应运而生的1. HADOOP背景介绍1.1什么是HADOOP(1)HADOOP是apache旗下的一套开源软件平台(2)HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理1. HADOOP的核心组件有HDFS(分布式文件系统)MAP.原创 2021-05-25 22:15:18 · 510 阅读 · 0 评论 -
大数据----8.zookeeper的简单介绍和安装
zookeeper的简单介绍和安装1.1 概述Zookeeper: zoo(动物园); keeper 饲养员;管理员(特指动物园的管理员)Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Mas原创 2021-08-18 19:38:49 · 517 阅读 · 0 评论 -
大数据----11.高可用的具体详细配置
高可用的具体配置1.可以直接在我么之前的hadoop集群中进行;最好是我们重新搭建一个集群来进行;因为之前的集群还要使用;1. 克隆服务器2.通过拷贝我们的 hadoop01; hadoop02;hadoop03; 分布为我们的ha01;ha02;ha03;3.克隆完毕之后的操作: 1.修改机器的ip地址:我们从150; 160;170;开始; vi /etc/sysconfig/network-scripts/ifcfg-eno16777736 //默认网卡都是这原创 2021-08-19 11:11:12 · 835 阅读 · 0 评论 -
大数据----10.HA高可用的具体分析和实现
HA高可用的具体分析和实现1. HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务),实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA(2)HDFS的HA机制详解通过双namenode消除单点故障,双namenode协调工作的要点:A、元数据管理方式需要改变:(1)内存中各自保存一份元数据(2)Edits日志只能有一份,只有Active状态的namenode节点可以做写操作原创 2021-08-18 20:26:02 · 621 阅读 · 0 评论 -
大数据----9.zookeeper的详细配置信息的分析和原理;常用命令;api的使用
zookeeper的详细配置信息的分析和原理;常用命令;api的使用1.解读zoo.cfg 文件中参数含义1.tickTime:通信心跳数,Zookeeper服务器心跳时间,单位毫秒Zookeeper使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个tickTime时间就会发送一个心跳,时间单位为毫秒。它用于心跳机制,并且设置最小的session超时时间为两倍心跳时间。(session的最小超时时间是2*tickTime); 大于2倍的心跳时间,就是超时了;2.init原创 2021-08-18 20:17:43 · 264 阅读 · 0 评论 -
大数据----6.HDFS中JAVA API的使用
HDFS中JAVA API的使用HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件、删除文件、读取文件内容等操作。下面记录一下使用JAVA API对HDFS中的文件进行操作的过程。对分HDFS中的文件操作主要涉及一下几个类:Configuration类:该类的对象封转了客户端或者服务器的配置。FileSystem类:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(conf);通过Fi原创 2021-08-17 20:32:46 · 285 阅读 · 0 评论