学习笔记
文章平均质量分 95
大数据教学过程的学习笔记,便于学生和自己查阅
若兰幽竹
认认真真做事,踏踏实实做人。不以物喜,不以己悲,活出自我,成就自我。
展开
-
Kettle8.2实现抽取文件到Hive
Kettle8.2实现抽取文件到Hive一、Hadoop2.7.3安装(安装略)二、Hive的安装及准备工作1、Hive的安装(本地模式)2、启动hiveserver2服务3、创建weblogs表三、案例演示3.1 准备工作3.2 Kettle作业创建与配置四、总结说明:环境:Kettle8.2+虚拟机+Hadoop2.7.3+Hive2.3.3目标:利用Kettle将本地文件抽取到Hive中用户:虚拟机root用户安装所有环境(为了方便,生产环境自行更改)一、Hadoop2.7.3安装(安装原创 2021-03-05 22:53:38 · 1566 阅读 · 4 评论 -
Kettle8.2与HBase集成
Kettle8.2与HBase集成一、HBase安装1.1 zookeeper单机安装1.2 HBase安装1.3 创建weblogs表,列族为pageviews二、Kettle配置三、案例演示3.1 功能描述3.2 测试数据3.3 组件实现3.4 运行验证说明:环境:Centos7 + Kettle8.2 + hbase-1.3.1 + zookeeper-3.4.5目标:通过Kettle将本地文件抽取到hbase中一、HBase安装安装hbase需要先安装zookeeper,故按照如下步原创 2021-03-04 22:05:20 · 1411 阅读 · 1 评论 -
Kettle8.2与Hadoop2.7.3集成
Kettle8.2与Hadoop2.7.3集成一、Hadoop伪分布式安装二、Kettle的配置三、案例演示说明:环境:Windows + 虚拟机操作系统:CentOS7Hadoop版本及模式:Hadoop2.7.3 + 伪分布式环境Kettle版本及模式:kettle8.2 + 单机模式一、Hadoop伪分布式安装安装步骤可以参考另外一篇博文:https://blog.csdn.net/sujiangming/article/details/88047006?spm=1001.201原创 2021-03-03 23:11:30 · 3058 阅读 · 4 评论 -
CDH6.1安装部署
CDH6.1安装部署一、安装前的准备二、Cloudera Manager安装一、安装前的准备虚拟机的创建及centos7的安装克隆虚拟机:采用完整克隆模式对克隆的虚拟机进行必要的修改(单机的话可以忽略)对拷贝后的node2和node3 分别进行以下修改1)uuidgen ens33 获取新的 UUID2)vim /etc/sysconfig/network-scripts/ifcfg-ens33 修改 IP 和 UUID3)service network restart 重原创 2021-01-15 17:16:51 · 1478 阅读 · 2 评论 -
大数据-数据采集引擎sqoop介绍
Sqoop一、搭建实验环境:Oracle数据库测试数据:用户sh 表:sales(订单表) ----> 自带大概92万条订单数据二、Sqoop: 采集关系型数据库中数据项目:每天晚上12点,采集Oracle数据库中的数据(1)写一个sqoop命令脚本: mysqoop.shsqoop import --connect jdbc:oracle:thin:@192.168.157...原创 2019-03-29 09:56:53 · 1101 阅读 · 0 评论 -
管理工具:HUE
管理工具:HUE一、Hadoop中的管理工具HDFS: NameNode网页 http://ip:50070SecondaryNameNode网页: http://ip:50090Yarn: http://ip:8088HBase: http://ip:16010Hive http://ip:9999/hwi/Spark http://ip:8080二、演示HUE...原创 2019-03-29 09:58:40 · 375 阅读 · 0 评论 -
ZooKeeper安装配置介绍
ZooKeeper一、什么是ZooKeeper?1、当成一个”数据库“,存储一些组件的元信息2、体系架构二、搭建ZooKeeper环境tar -zxvf zookeeper-3.4.10.tar.gz -C ~/training/环境变量ZOOKEEPER_HOME=/root/training/zookeeper-3.4.10export ZOOKEEPER_HOMEPATH=...原创 2019-03-29 10:00:24 · 495 阅读 · 0 评论 -
贵师大-大数据实训项目-笔记
我们要做什么:目标:电商网站+电商网站后台管理系统+大数据分析+数据可视化思路:按照数据的采集,数据的存储,数据分析处理,数据可视化逻辑图:(*)注意:实训教室:6506一、数据的采集 1、电商后台管理系统:Spring MVC就是后台管理系统 保证Spring MVC实训项目运行起来 ...原创 2019-05-08 15:17:22 · 3123 阅读 · 2 评论 -
sqoop数据转换工具
一、sqoop概念 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第...原创 2019-05-08 15:19:58 · 711 阅读 · 0 评论 -
HBase的基础
一、HBase的概念二、HBase的体系结构 三、HBase的基本原理四、HBase的安装配置1、本地模式(不需要HDFS(先stop-all.sh),保存在Linux的文件系统)1)事先需要在/training/hbase-1.3.1目录下创建data目录: mkdir /training/hbase-1.3.1/data2)进入到/trainin...原创 2019-05-29 10:10:21 · 1035 阅读 · 0 评论 -
Hive的基础介绍
一、什么是Hive?1、Hive是一个翻译器,SQL ---> Hive引擎 ---> MR程序2、Hive是构建在HDFS上的一个数据仓库(Data Warehouse) Hive HDFS 表 目录 分区...原创 2019-06-05 09:50:33 · 1061 阅读 · 0 评论 -
分布式-Hadoop课程-总结
下面内容分别课程内容、考查知识点大纲两个部分,请同学们认真复习总结一、课程内容1、Linux常用命令cp mkdir cat tarshell脚本编程:(1)新建.sh 给执行权限(命令)(2)bash test.sh或./test.sh (3)$0 $1 $2...原创 2019-06-24 11:06:22 · 1958 阅读 · 0 评论 -
Hadoop实战笔记
**说明:**为了方便学习,以下centos使用的用户是root用户,虚拟机与宿主机采取NAT方式通讯一、大数据主机规划及安装部署1、主机规划 Zookeeper集群: 192.168.215.154 (niit10) 192.168.215.155 (niit11) 192.168.215.156 (niit12) Hadoop集群: 192.168.215.154 ...原创 2019-03-29 09:49:19 · 918 阅读 · 0 评论 -
学习Spark Core 内容介绍
我们先如下这张图的最底层开始学习:首先明确学习新技术之前,我们需要了解下学习的对象,学习的原因、学习的主要内容以及学习的过程等,按照这种思路,我进行了如下的描述:一、什么是Spark请查看官网的解释:http://spark.apache.org/Apache Spark™ is a unified analytics engine for large-scale data proces...原创 2019-03-28 23:00:33 · 597 阅读 · 0 评论 -
在VMware上虚拟机上安装CentOS-7操作系统
操作系统及版本:CentOS-7-x86_64-DVD-1511.iso安装步骤:1、新建虚拟机2、选择自定义(高级)安装,点击【下一步】3、选择虚拟机硬件兼容性,并点击【下一步】4、选择“稍后安装操作系统”,并点击【下一步】5、选择操作系统版本,并点击【下一步】6、命名虚拟机,可任意路径,并点击【下一步】7、配置处理器,并点击【下一步】...原创 2019-02-27 22:03:43 · 4530 阅读 · 8 评论 -
第一篇:CentOS7最小化安装找不到ifconfig命令的问题
问题原因:CentOS7最小化安装时,没有预先安装net-tools.x86_64软件解决步骤:1、进入到虚拟机,打开命令行连接工具SecureCRT,然后以root用户登录进去,执行如下命令 cd /etc/sysconfig/network-scripts/ ,找到以ifcfg-eno开头后面有数字的文件,例如找到:ifcfg-eno16777728 然后编...原创 2019-02-27 22:15:35 · 2697 阅读 · 0 评论 -
大数据概述
1、大数据概念 (1)什么是大数据 指是无法使用现有的工具提取、存储、共享、分析和处理的海量的、复杂的数据集合。 举例: 淘宝(数据量、数据变化快、数据复杂) 支付宝(支付) (2)大数据有什么特点 4V...原创 2019-02-27 22:48:03 · 678 阅读 · 0 评论 -
Hadoop三种环境的安装与配置
一、Hadoop安装前的准备工作================================= 1、安装centOS操作系统(参考发的大数据工具中的Linux文件夹下的安装文档) 2、使用下发的大数据工具中的SSH_SFTP工具进入系统中,新建两个目录 mkdir /tools ---->用于存放软件包 mkdi...原创 2019-02-28 22:59:35 · 6918 阅读 · 0 评论 -
Hadoop的体系结构简介
主题:Hadoop的体系结构详解(重点)注意:大数据的一些组件的结构基本上都是主从式的结构一、Hadoop的分布式文件存储系统HDFS的体系结构HDFS的体系结构图:HDFS的伪分布环境下的结构: HDFS体系结构包括: (1)、NameNode名称节点 作用: (*)...原创 2019-03-03 23:20:20 · 3427 阅读 · 0 评论 -
我与编程的一点小缘分
因最近在大学从事教学活动,发现有许多学生都或多或少存在一些与我求学时有过的迷茫:对当前的学习迷茫,对选择方向迷茫、对未来的发展迷茫……早有人说过:谁的青春不迷茫呢?其实人生的成长不就是一个不断变得成熟的过程吗?迷茫不可怕,可怕的是明知自己迷茫却视而不见。 有人说:大学,是一个学习与生活最好的地方,是一个梦想照进现实的象牙塔,是一个成就自我找出真我的家园。然而我的大学生...原创 2019-03-07 23:31:10 · 518 阅读 · 1 评论 -
Java API 操作 HDFS
使用Java API 操作HDFS本文主要介绍如何使用Hadoop提供的HDFS Java API来操作HDFS分布式文件系统。主要让初学者学会使用eclipse来开发HDFS的一些步骤和简单的一些操作,比如创建目录,上传文件、下载文件等。目的是让初学者更好的理解分布式文件系统,掌握如何操作分布式文件系统HDFS的一些方法和技巧。步骤如下:(1)创建Java工程,需要在工程中创建一个lib包...原创 2019-03-17 22:16:21 · 1048 阅读 · 0 评论 -
分布式-Hadoop简介
分布式计算原理课程主要内容其实包含两个方面:(一)、分布式存储;(二)、分布式计算;如果分得更细一点的话,还应该包含分布式应用即如何利用分布式计算来分析处理分布式存储的数据;用图来说明:这里需要明确几个概念:(1)、何谓分布式 在百度词条中,你会发现,分布式就是计算机的一种算法。其实可以形象的将其比喻为撒网捕鱼,渔网中的每个节点都负责着各自的自责(不能脱...原创 2019-03-12 23:38:17 · 1886 阅读 · 0 评论 -
HDFS的操作及高级特性笔记
1、讲解Hadoop三种操作方式1)、通过Web Console: 50070、500902)、命令行(1)操作命令hdfs dfs *****-mkdir创建目录举例:hdfs dfs -mkdir /aaa...原创 2019-03-12 23:45:40 · 1027 阅读 · 0 评论 -
Spark学习内容介绍
Spark主要是内容:通过一张图来看spark的主要内容如下:由此可以看出,学习spark其实就是学习以上五个部分内容:一、Spark Core (Apache Spark)内核,是Spark中最重要的内容,相当于MapReduce, 都是进行离线计算,Spark Core的核心是:RDD(弹性分布式数据集),由分区组成。二、Spark SQL相当于Hive、Pig 支持SQL和DS...原创 2019-03-28 22:47:54 · 846 阅读 · 0 评论