大数据
大数据
aicloudgo
这个作者很懒,什么都没留下…
展开
-
centos7.6安装mysql5.7.xx
检查系统是否已有自带mysql# 检查rpm -qa | grep mysql# 如果有,则删除rpm -e --nodeps xxx已安装的程序官网下载安装包# wget方式下载wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm# 准备的安装包mysql57-community-release-el7-9.noarch.rpmmysql-community-common-5.7原创 2020-11-17 12:10:54 · 205 阅读 · 0 评论 -
Hive的HiveQL
# 启动Hive客户端cd /opt/apache_hadoop/apache-hive-1.2.1bin/hive# 创建数据库create database [if not exists] dbname;# 显示数据库列表show databases;# 显示数据库表列表show tables;# 显示Hive的自带函数show functions;查看某函数信息desc function func_name例子:desc function sum;# 删除数据.原创 2020-08-16 23:46:28 · 362 阅读 · 0 评论 -
配置Hive的元数据库为MYSQL
安装MySQL# 检测主机是否安装了自带的mysqlrpm -qa | grep 'mysql'# 卸载自带的mysqlrpm -e --nodeps mysql-libs-5.1.71-1.el6.x86_64# 使用yum安装mysqlyum install -y mysql-server# 安装完毕启动mysql服务service mysqld statusservice mysqld start# 重新设置root密码/usr/bin/mysqladmin -u r原创 2020-08-16 13:30:31 · 629 阅读 · 0 评论 -
Hadoop基础知识
1.大数据技术架构2.大数据特点:海量性(volume)、多样行(variety)、高速性(velocity)、价值性(value)。3.大数据的计算模式:批处理计算(mapreduce)、查询分析计算(hive)、流计算(spark、storm) 、图计算。主要分两大类:离线计算(如mapreduce)、实时计算(如 spark、storm)。4.Hadoop框架hadoop是一个高可靠、可伸缩的分布式计算框架。用于大数据存储 (HDFS)、计算(MapReduce)、分析的.原创 2020-08-02 22:44:55 · 212 阅读 · 0 评论 -
Hadoop完全分布式的搭建
1.前期准备虚拟机:VMware Workstation ProLinux系统:CentOS-7.6-x86_64-bin-DVD1.iso2.配置网络信息# 编辑网卡vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0TYPE=EthernetUUID=c74441f5-a71d-4fcf-9a80-6bff1218010dONBOOT=yes //开机获取(修改项)NM_CONTROLLED=yesBOOT.原创 2020-08-02 21:10:16 · 129 阅读 · 0 评论 -
Hadoop分布式存储与分布式计算流程
1.数据分析流程图原创 2020-08-01 17:17:05 · 561 阅读 · 0 评论 -
Hive安装与配置
Hadoop的伪分布式搭建及配置备注:重新搭建hadoop环境前需要删除以下文件cd /opt/apache_hadoop/hadoop-2.7.3rm -rf ./data/tmprm -rf ./logs# hadoop-env.shexport JAVA_HOME=/opt/jdk1.8.0_221 # mapred-env.shexport JAVA_HOME=/opt/jdk1.8.0_221 # yarn-env.shexport JAVA_HOME=/opt/j原创 2020-07-26 18:36:24 · 212 阅读 · 0 评论 -
Spark单词统计结果排序
统计单词数量# 启动spark-shellcd /opt/apache_hadoop/spark-2.2.1bin/spark-shell读取数据val path = "/word/word.txt"形成rddval rdd = sc.textFile(path)读取每一行字符串数据并分隔成数组val rdd1 = rdd.flatMap(line => line.split("\t"))查看rdd1.collect()输出:res1: Array[String]原创 2020-07-19 22:49:32 · 638 阅读 · 0 评论 -
在Spark-Shell中实现单词统计
单词文件word.txt,单词以tab分隔java python hadoop scalamysql hdfs hdfs mapreduceyarn hadoop hadoop scalahive hive sqoop hbasekafka hadoop hbase hadoophive flume redis redisjava python scala sqoopspark spark scala zookeeperflume hadoop hdfs hive# 上传word原创 2020-07-19 15:06:10 · 1251 阅读 · 0 评论 -
搭建Spark的Local运行环境
安装步骤# 安装JDK1.8,配置环境变量export JAVA_HOME=/opt/jdk1.8.0_221export PATH=$PATH:$JAVA_HOME/bin# 安装scala-2.11.8解压tar -zxf scala-2.11.8.tgz# 环境变量export SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin# 生效profile配置source /ect/profile#原创 2020-07-17 23:18:40 · 305 阅读 · 0 评论 -
HDFS分布式文件系统基本操作
1。启动HDFS# 启动cd /opt/apache_hadoop/hadoop-2.7.3sbin/hadoop-daemon.sh start namenodesbin/hadoop-daemon.sh start datanode# 浏览器访问http://域名或IP:500702。HDFS基本操作命令# 查看所有操作命令cd /opt/apache_hadoop/hadoop-2.7.3bin/hdfs dfs结果如下'''[-appendToFile &l原创 2020-06-14 22:57:19 · 481 阅读 · 0 评论 -
Hadoop单节点伪分布式环境搭建
1.安装JDK先检查centos是否安装有自带的jdk,有则需要先卸载。rpm -qa | grep "java"上传并解压jdk安装包tar -zxf jdk-8u221-linux-x64.tar.gz配置java环境变量vi /etc/profile在profile文件末尾新增并保存退出export JAVA_HOME=/opt/jdk1.8.0_221export PATH=$PATH:$JAVA_HOME/bin生效profile的配置source /etc/pr原创 2020-06-14 20:57:43 · 197 阅读 · 0 评论