![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 67
Big data ape
这个作者很懒,什么都没留下…
展开
-
flume监控本地文件并同步到hdfs进行数据查询与分析
总体要求 利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到MongoDB数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。 ** 前期准备 ** 1、配置大数据需要的环境 (1)配置Hadoop环境:可看博客: (2)配置zookeeper环境:https://blog.csdn.net/weixin_44701468/article/details/106822805 (3)配置spark环境: (3)配置hive环境: (3)配置spark环境: 2、下载原创 2020-07-16 00:09:36 · 593 阅读 · 0 评论 -
Sqoop-Flume资料整理
1.Sqoop - 数据迁移工具 https://blog.csdn.net/howard2005/article/details/104251066 2.初识日志收集系统Flume https://blog.csdn.net/howard2005/article/details/104258734 3.Flume - 下载、安装与配置 https://blog.csdn.net/howard2005/article/details/104259982 4.Flume Sources(Flume源)转载 2020-06-24 12:28:42 · 92 阅读 · 0 评论 -
Hive资料整理
1.Hive - 下载、安装与配置 https://blog.csdn.net/howard2005/article/details/104104324 2.解决CentOS7上MySQL启动失败问题 https://blog.csdn.net/howard2005/article/details/104127204 3.Hive - 数据库与表操作 https://blog.csdn.net/howard2005/article/details/104130637 4.Hive - 内部表与外部表转载 2020-06-24 12:20:32 · 107 阅读 · 0 评论 -
9、数据采集系统Flume配置安装
Flume配置安装 Flume是Cloudera提供的一个高可用的,高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume特点如下: Flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中 Flume可以将从多个服务器中获取的数...原创 2020-04-18 21:03:09 · 204 阅读 · 0 评论 -
HADOOP生态圈简介
1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与s...原创 2020-04-18 19:32:59 · 474 阅读 · 0 评论 -
8、Zookeeper分布式安装部署
4.1 分布式安装部署 0)集群规划 在hadoop2、hadoop3和hadoop4三个节点上部署Zookeeper。 1)解压安装 (1)解压zookeeper安装包到/opt/module/目录下 [atguigu@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ (2)在/opt/module/zo...原创 2020-04-18 19:26:47 · 107 阅读 · 0 评论 -
7、zookeeper本地模式安装部署
1、本地模式安装部署 安装前准备: (1)安装jdk (2)通过filezilla工具拷贝zookeeper到到linux系统下 (4)解压到指定目录 [root@master software]$ tar -zxf zookeeper-3.4.10.tar.gz -C /opt/module/ 配置修改: (1)将/opt/module/zookeeper-3.4.10/conf这个路径下的z...原创 2020-04-18 19:20:44 · 135 阅读 · 0 评论 -
6、日志的聚集
日志聚集概念:应用运行完成以后,将日志信息上传到HDFS系统上 开启日志聚集功能步骤: (1)配置yarn-site.xml <-- 日志聚集功能使能 --> <-property> <-name>yarn.log-aggregation-enable<-/name> <-value>true<-/value> <-/p...原创 2020-04-18 19:12:22 · 135 阅读 · 0 评论 -
5、历史服务配置启动查看
历史服务配置启动查看 先关闭防火墙----service firewalld stop 1)配置mapred-site.xml <-property> <-name>mapreduce.jobhistory.address<-/name> <-value>master:10020<-/value> <-/property> &...原创 2020-04-18 19:05:31 · 220 阅读 · 2 评论 -
4、YARN上运行MapReduce 程序
伪分布式运行Hadoop 案例 YARN上运行MapReduce 程序 1)分析: (1)准备1台客户机 (2)安装jdk (3)配置环境变量 (4)安装hadoop (5)配置环境变量 (6)配置集群yarn上运行 (7)启动、测试集群增、删、查 (8)在yarn上执行wordcount案例 2)执行步骤 (1)配置集群 (a)配置yarn-env.sh 配置环境变量-----JAVA_HOME...原创 2020-04-18 18:47:54 · 246 阅读 · 0 评论 -
3、伪分布式运行Hadoop 案例
伪分布式运行Hadoop 案例 3.2.1 HDFS上运行MapReduce 程序 1)分析: (1)准备1台客户机 (2)安装jdk (3)配置环境变量 (4)安装hadoop (5)配置环境变量 (6)配置集群 (7)启动、测试集群增、删、查 (8)在HDFS上执行wordcount案例 2)执行步骤 (1)配置集群 (a)配置:vi /opt/module/hadoop-2.9.2/etc/...原创 2020-04-18 18:16:38 · 238 阅读 · 0 评论 -
2、本地文件运行Hadoop案例
官方wordcount案例 1)创建在hadoop-2.9.2文件下面创建一个wcinput文件夹 [wangxiaoyu@主机名 hadoop-2.9.2mkdirwcinput2)在wcinput文件下创建一个wc.input文件[wangxiaoyu@主机名hadoop−2.9.2mkdir wcinput 2)在wcinput文件下创建一个wc.input文件 [wangxiaoyu@主机...原创 2020-04-18 18:12:38 · 218 阅读 · 0 评论 -
1、Hadoop安装和配置
Hadoop配置安装 1.修改为静态ip-------vi /etc/sysconfig/network-scripts/ifcfg-ens33 2.重启网卡-----------------service network restart 3.修改主机名---------vi /etc/hostname 4.修改IP对应关系-----------vi /etc/hosts 5.修改window7的...原创 2020-04-18 18:08:06 · 129 阅读 · 0 评论