大数据
chen18677338530
这个作者很懒,什么都没留下…
展开
-
hadoop环境搭建
下载hadoop解压hadoop添加环境变量原创 2019-06-19 13:49:37 · 1866 阅读 · 1 评论 -
Linux版本
Red HatFedoraDebianUbuntuCentosDeepin下载镜像地址:http://mirrors.163.com/原创 2019-06-18 15:50:35 · 1878 阅读 · 0 评论 -
去IOE意思
它是阿里巴巴造出的概念。其本意是,在阿里巴巴的IT架构中,去掉IBM的小型机、Oracle数据库、EMC存储设备,代之以自己在开源软件基础上开发的系统。...原创 2019-06-18 15:47:04 · 4847 阅读 · 0 评论 -
大数据技术生态体系
sqoopSqoop 是一款开源的工具,主要用于在 Hadoop、 Hive 与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL, Oracle 等)中的数据导进到Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。FlumeFlume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和...原创 2019-06-18 15:32:29 · 2335 阅读 · 0 评论 -
大数据技术之 Flume
Flume是什么Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume的组成Agent主要由:source,channel,sink三个组件组成.Source:从数据发生器接收数据,并将接收的...原创 2019-06-18 11:50:32 · 2283 阅读 · 0 评论 -
启动hadoop
[root@chen1 ~]# hadoop-daemon.sh start namenodestarting namenode, logging to /data/app/hadoop-2.7.2/logs/hadoop-root-namenode-chen1.out[root@chen1 ~]# hadoop-daemon.sh start datanodestarting datano...原创 2019-06-20 17:39:49 · 2442 阅读 · 0 评论 -
hadoop序列化实现
Hadoop序列化特点紧凑:高效实用存储空间快速:读写数据额外开销小可扩展:随着通信协议的升级而可以升级互操作:支持多种语言的交互自定义Bean对象实现序列化必须实现Writable接口反序列化时,需要反射调用无参构造函数如果需要将自定义的bean放在key中传输,则还需要实现Comparable接口案例package com.chen.phoneproject;i...原创 2019-06-19 18:22:56 · 2148 阅读 · 0 评论 -
自己撸一个Wordcount
新建maven工程修改pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch...原创 2019-06-19 17:12:02 · 1959 阅读 · 0 评论 -
MapReduce编程规范
用户编写的程序分为三个部分:Mapper、Reducer、Driver原创 2019-06-19 16:12:06 · 1888 阅读 · 0 评论 -
HDFS客户端Java开发
配置HADOOP_HOME环境百度下载需要的文件。新建环境变量修改Path创建maven工程修改pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3....原创 2019-06-19 16:05:14 · 2021 阅读 · 0 评论 -
HDFS的Shell操作
基本语法hadoop fs 具体命令hdfs dfs 具体命令命令大全[root@chen1 hadoop-2.7.2]# hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [...原创 2019-06-19 15:39:04 · 1978 阅读 · 0 评论 -
hadoop配置日志聚集
日志聚集应用运行完成以后,将程序的运行日志上传到HDFS系统上。日志聚集功能的好处可以方便的查看程序的运行详情,方便开发调试。配置yarn-site文件关闭NodeManager、ResourceManager、HistoryManager./sbin/yarn-daemon.sh stop resourcemanager./sbin/yarn-daemon.sh sto...原创 2019-06-19 15:27:13 · 2184 阅读 · 0 评论 -
hadoop配置历史服务器
为了更好的查看程序的历史运行情况,需要配置一下历史服务器。修改mapred-site文件启动历史服务器./sbin/mr-jobhistory-daemon.sh start historyserver查看wen端界面...原创 2019-06-19 15:07:50 · 2887 阅读 · 0 评论 -
使用YARN启动hadoop运行MapReduce程序
修改yarn-env文件2. 修改yarn-env文件3. 配置mapred-env文件4. 重命名和修改mapred-site.xml.template为mapred-site.xml保证NameNode和DataNode已经正常启动启动ResourceManager./sbin/yarn-daemon.sh start resourcemanager启动...原创 2019-06-19 15:02:24 · 2457 阅读 · 1 评论 -
使用HDFS命令
创建文件夹hdfs dfs -mkdir -p /data/hadoop/input上传文件hdfs dfs -put /data/software/jdk-8u181-linux-x64.tar.gz /data/hadoop/input/查看上传的文件hdfs dfs -ls /data/hadoop/input/结果:删除文件hdfs dfs -rm /data...原创 2019-06-19 14:41:50 · 1923 阅读 · 0 评论 -
hadoop伪分布式运行模式
修改hadoop-env文件配置core-site文件修改hdfs-site文件初始化NameNode(第一次启动需要初始化,以后不需要)./bin/hdfs namenode -format启动NameNode./sbin/hadoop-daemon.sh start namenode启动DataNode./sbin/hadoop-daemon...原创 2019-06-19 14:28:34 · 2031 阅读 · 0 评论 -
运行hadoop案例
运行Grep案例创建input文件夹准备文件到input文件夹中执行share目录下的MapReduce程序./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep /data/tmp/input/ /data/tmp/output 'dfs[a-z.]+'结果:19...原创 2019-06-19 14:04:41 · 2558 阅读 · 0 评论 -
查看本机是否开启虚拟化
打开任务管理器即可!原创 2019-06-18 15:53:21 · 3290 阅读 · 0 评论