![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术
雨季丶
一直在追遂
展开
-
Sqoop安装配置
目录 一、安装准备 二、安装Sqoop 三、配置Sqoop 四、测试 一、安装准备 Sqoop安装包: 二、安装Sqoop 1.上传文件到hadoop01虚拟机的/export/software目录 2.解压并移动到servers目录 [root@hadoop01 software]# tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.gz -C /export/servers/ 3.重命名 [root@hadoop01 servers]..原创 2020-06-04 18:06:08 · 256 阅读 · 0 评论 -
Flume安装配置
目录 一、安装准备 二、安装Flume 三、配置Flume 四、测试 一、安装准备 Flume安装包: 链接:https://pan.baidu.com/s/1GZN-vzvDnd_I_r40p_qc6g 提取码:8fkx 二、安装Flume 1.上传文件到hadoop01虚拟机 2.解压并移动到servers目录 tar -zxvf apache-flume-1.8.0-bin.tar.gz mv apache-flume-1.8.0-bin /export/serve..原创 2020-05-21 18:14:43 · 263 阅读 · 0 评论 -
Hive的安装(三种模式)
目录 一、安装准备 二、三种模式简介 三、嵌入模式 四、本地模式 五、远程模式 一、安装准备 1.hive安装包 ,mysql连接驱动 链接:https://pan.baidu.com/s/1lIMygm5UsJTq91gstQCFBA 提取码:o7pi 2.hive是依赖hadoop系统的,还应保证hadoop集群搭建成功hadoop集群搭建 二、三种模式简介 ...原创 2020-04-30 21:01:40 · 1420 阅读 · 0 评论 -
Zookeeper分布式集群部署
一、安装准备 zookeeper安装包:zookeeper-3.4.14.tar 提取码:guoj 二、安装zookeeper 1.将zookeeper安装包上传到Linux系统的 /export/software/目录下 cd /export/software/ 2.解压安装包到/export/servers/ 目录下 tar -zxvf zookeeper-3....原创 2020-04-13 19:09:29 · 280 阅读 · 0 评论 -
Hadoop安装教程+集群部署
一、安装准备 vm15pro,centos6.9,jdk1.8,hadoop2.7.4,SecureCR+SecureFX 7.0.0 Build 326(64位版) 二,安装虚拟机 (1)新建虚拟机 (2)编辑虚拟机设置 (3)初始化虚拟机 创建三个文件夹,方便以后使用 (4)克隆虚拟机 右键点...原创 2020-02-28 20:49:05 · 630 阅读 · 0 评论 -
MapReduce实现二次排序
本文参考章鱼大数据https://www.ipieuvre.com/e/54/311/9533 问题: 在电商网站中,用户进入页面浏览商品时会产生访问日志,记录用户对商品的访问情况,现有goods_visit2表,包含(goods_id,click_num)两个字段,编写MapReduce代码,功能为根据商品的点击次数(click_num)进行降序排序,再根据goods_id升序排序,并输...原创 2019-11-27 21:34:26 · 677 阅读 · 0 评论 -
MapReduce实战PageRank
本文参考章鱼大数据平台 https://www.ipieuvre.com/e/190/311/9539 PageRank:网页排名,右脚网页级别。是以Google 公司创始人Larry Page 之姓来命名。PageRank 计算每一个网页的PageRank值,并根据PageRank值的大小对网页的重要性进行排序。 PageRank的基本思想: 1.如果一个网页被很多其他网页链接到...原创 2019-11-27 21:24:03 · 276 阅读 · 0 评论 -
Spark SQL编程基础
一、概述 Spark SQL重要的是操作DataFrame,DataFrame本身提供了Save和Load的操作, Load:可以创建DataFrame。 Save:把DataFrame中的数据保存到文件或者说用具体的格式来指明我们要读取的文件类型,以及用具体的格式来指出我们要输出的文件是什么类型。 DataFrame本质是数据 + 数据的描述信息(结构元信息)。 二、DataFrame...原创 2019-11-27 18:02:42 · 175 阅读 · 0 评论 -
Spark RDD编程基础
一、数据读写 (1)从文件系统加载数据创建RDD ①本地文件:sc.textFile("file:///data/spark/buyer_favorite") ②HDFS文件:sc.textFile("hdfs://localhost:9000/spark/buyer_favorite") (2)通过并行集合创建RDD val array = Array(1,2,3,4,5)...原创 2019-11-27 17:36:44 · 1542 阅读 · 1 评论