![](https://img-blog.csdnimg.cn/20191013151012697.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据平台搭建
个人笔记,学习记录!均为章鱼平台上面的知识,为了方便,不写转载。用于个人可以,公开请著名出处。
普通网友
这个作者很懒,什么都没留下…
展开
-
Hive JDBC连接
Hive JDBC连接实验目的1.掌握Hive JDBC连接方法实验原理Hive是大数据技术簇中进行数据仓库应用的基础组件,是其它类似数据仓库应用的对比基准。基础的数据操作我们可以通过脚本方式以Hive-client进行处理。若需要开发应用程序,则需要使用Hive的JDBC驱动进行连接。Hive JDBC驱动连接分为两种,早期的是HiveServer,最新的是HiveServer2,前者本身存在很多的问题,如安全性、并发性等,后者很好的解决了诸如安全性和并发性等问题。实验环境Linux Ubu原创 2020-11-02 09:58:52 · 1170 阅读 · 0 评论 -
HBase JAVA API
HBase JAVA API实验目的1.了解HBase语言的基本语法2.了解HBase开发的原理3.了解HBase Java API的使用实验原理HBase与Hadoop一样,都是用Java编写的,所以HBase对Java支持是必须的,HBase Java API核心类介绍如下:1.HBaseConfiguration类HBaseConfiguration是每一个HBase Client都会使用到的对象,它代表HBase配置信息,有两种构造方式:①public HBaseConfigura原创 2020-10-13 21:25:12 · 4015 阅读 · 0 评论 -
MongoDB shell操作
MongoDB shell操作实验目的1.了解MongoDB的shell操作语法2.掌握MongoDB中对数据增删改查的命令实验原理MongoDB shell是一个可执行文件,是MongoDB自带的一个交互式JavaScript shell,位于MongoDB安装路径下的/bin文件夹中。要启动MongoDB shell,可执行命令mongo。这将在控制台提示符中启动该shell,MongoDB shell提供了多个命令,下面列出了多个MongoDB shell命令及其用途。实验环境Linu原创 2020-10-13 20:10:13 · 1337 阅读 · 0 评论 -
Sqoop增量数据导入
Sqoop增量数据导入大中小实验目的1.掌握Sqoop的时间增量抽取2.掌握Sqoop的字段增量抽取实验原理Sqoop在import时,需要制定split-by参数。Sqoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同Map中。每个Map中再处理数据库中获取的一行一行的值,写入到HDFS中。同时split-by根据不同的参数类型有不同的切分方法,如比较简单的int型,Sqoop会取最大和最小split-by字段值,然后根据传入的Map数(num-mappers)来原创 2020-09-08 07:19:40 · 928 阅读 · 0 评论 -
Python Mysql
#Python Mysql实验目的掌握Python Mysql的增删改查等操作知识点介绍什么是 PyMySQL?PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。实验环境Linux Ubuntu 16.04Python 3.6IpythonPyCharm实验内容本实验共包含PyMy原创 2020-09-05 12:41:20 · 223 阅读 · 0 评论 -
HBase的安装
单机模式安装解压文件到/opt,并重命名sudo tar -zxvf hbase-2.2.5-bin.tar.gz /opt/sudo mv /opt/hbase-2.2.5-bin.tar /hbase修改环境变量和刷新环境变量sudo vi /etc/profile# 加上下面数据export HBASE_HOME=/opt/hbaseexport path=$HBASE_HOME/bin:$path# 修改完成后wq退出source /etc/profile编辑..原创 2020-09-02 06:07:09 · 88 阅读 · 0 评论 -
MongoDB 简介及安装
实验原理MongoDB是10gen公司开发的一款以高性能和可扩展性为特征的开源软件。它是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的,MongoDB最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。它是一个面向集合的,模式自由的文档型数据库。所谓“面...原创 2019-12-19 21:44:42 · 259 阅读 · 0 评论 -
Kafka安装及测试
实验原理Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它因可以水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时...原创 2019-12-19 21:44:37 · 368 阅读 · 0 评论 -
Flume安装部署
实验原理Flume是Cloudera公司的一款高性能、高可用的分布式日志收集系统。Flume的核心是把数据从数据源收集过来再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,再删除缓存的数据。Flume传输数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。Flume运行的核心是Agent。它是一个完整的数据收集工具,含...原创 2019-12-19 21:44:23 · 119 阅读 · 0 评论 -
Redis的安装部署与简单使用
实验原理Redis 是一个高性能的key-value数据库。 redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部 分场合可以对关系数据库起到很好的补充作用。它提供了Python,Ruby,Erlang,PHP客户端。实验步骤1.源代码方式。首先新建一个安装目录并授权:sudo mkdir -p /apps/redis sudo chown zha...原创 2019-12-19 21:44:19 · 141 阅读 · 0 评论 -
Pig安装
实验原理Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模...原创 2019-12-19 21:43:59 · 278 阅读 · 0 评论 -
Spark Standalone伪分布模式安装
实验目的1.熟练掌握Spark Standalone伪分布模式的安装流程2.准确理解Spark Standalone伪分布模式的运行原理3.学会独立进行SparkStandalone伪分布模式安装实验原理Local cluster伪分布式模式,实际是在SparkContext初始化的过程中,在本地启动一个所有服务都在单机上运行的伪分布Spark集群,所以从部署的角度来说无须做任何准备工作...原创 2019-12-19 21:43:50 · 1400 阅读 · 0 评论 -
Spark Standalone安装
伪分布式安装实现原理Local cluster伪分布式模式,实际是在SparkContext初始化的过程中,在本地启动一个所有服务都在单机上运行的伪分布Spark集群,所以从部署的角度来说无须做任何准备工作。以SparkPi为例,伪分布式模式下的应用程序的启动命令的示例如下:./bin/run-example org.apache.spark.examples.SparkPi local-c...原创 2019-12-06 11:51:12 · 189 阅读 · 0 评论 -
Sqoop的安装
sqoop的实验原理Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(Mysql、Oracle…)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了Import和Export这两个工具。Sqoop imp...原创 2019-12-06 11:27:53 · 111 阅读 · 0 评论 -
ZooKeeper安装
实验目的1.了解ZooKeeper的安装部署2.了解ZooKeeper的工作原理实验原理ZooKeeper是一个开源的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态,根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口、性能高效和功能稳定的系统提供给用户。ZooKeeper的核心是原子广播,这个机制保证了各个Se...原创 2019-12-06 11:05:05 · 614 阅读 · 0 评论 -
分布式平台搭建(详细)
主节点1、下载安装包及测试文档切换目录到/tmpcd /tmp下载Hadoop安装包 wget http://192.168.19.201:60000/hadoop-2.6.0-cdh5.4.5.tar.gz 下载JDK安装包wget http://192.168.19.201:60000/jdk-7u75-linux-x64.tar.gz 下载实验测试数据wge...原创 2019-10-13 15:08:31 · 1743 阅读 · 0 评论 -
分布式安装
/etc/profileJAVA_HOMEHADOOP_HOMEPATH/etc/hosts192.168.0.1 master192.168.0.2 slave1182.168.0.3 slave2/etc/hostnamemasaterslave1slave2/etc/network/interfacesifconfig查看IPhadoop/etc/h...原创 2019-10-13 14:34:28 · 126 阅读 · 0 评论