JAVA自定义排序 import java.util.Arrays;//实现Comparable接口可以进行比较大小public class People implements Comparable<People>{ private String name; private Integer age; public People(String name, Integer a...
MapReduce练习IpAction 统计每个 ip 做了多少次 操作统计每个 操作,执行了多少次每个 ip 的每个操作 执行了多少次(包括分区)192.168.10.109 这个 ip 执行了多少次操作每个 ip 的每个操作 执行了多少次,只看次数大于 400 的ip-action数据文件下载:...
MapReduce保存计算结果到数据库 ------------- 创建数据库和表 ---------------mysql -u root -p 登录数据库create database if not existsii; 创建数据库useii; 使用数据库create table if not exists `ii` ( `id` int primary key auto_increment, `word` varc...
MapReduce的优化 Map Join:在 Map 阶段拼接数据,效率高,只适合一个文件小到能够读取到内存中job: 1. 添加小文间到 classpath job.addFileToClassPath() map: 1. 在 setup 读取小文间的内容,保存到内存中的 HashMap 中 以 关联条件为 key,其它字段为 value ...
MapReduce的排序 排序是数据分析中最常用的操作,没有之一。单字段升序:利用 mapreduce 自身的排序机制,把需要排序的字段作为 key 即可自定义排序规则: 方案一:自定义 key 1. 自定义类实现 WritableComparable 接口,设置泛型为自定义类 2. 声明需要排序的字段,添加 setter && getter 3...
使用Scala编写Map Reduce的模板 def main(args: Array[String]): Unit = { //1.配置 spark 任务相关信息 val sparkConf = new SparkConf(); //配置人物名字 sparkConf.setAppName("word count") //配置运行模式:本地模式 sparkConf.setMaster(...
使用HQL分析数据的脚本 清洗数据#!/bin/bashhadoop jar jar路径 类路径.NginxAccessETL $1hive -e "USE 数据库;CREATE TABLE IF NOT EXISTS dwb_nginx_access_log( ip string, time string, path string)PA...
使用HQL分析数据的脚本 清洗数据#!/bin/bashhadoop jar jar路径 类路径.NginxAccessETL $1hive -e "USE 数据库;CREATE TABLE IF NOT EXISTS dwb_nginx_access_log( ip string, time string, path string)PA...
数据分析—排序 排序是数据分析中最常用的操作,没有之一。单字段升序: 利用 mapreduce 自身的排序机制,把需要排序的字段作为 key 即可其它排序:自定义排序规则 方案一:自定义 key 1. 自定义类实现 WritableComparable 接口,设置泛型为自定义类 2. 声明需要排序的字段,添加 setter && getter ...
WordCount代码模板 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable...
MapReduce的使用 MapReduce:分布式离线计算框架**分布式:**程序多节点(resourceManager 和 nodeManager)多角色(map 和 reduce)组成**离线:**计算过程中产生中间数据,会保存在硬盘上**计算框架:**提供了一个编程模型,可以很轻松的实现分布式数据分析程序使用 MapReduce 需要先启动 hdfs 和 yarn: 1. 启动 3 个节点的 zoo...
Java中HBase的使用 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apache.hadoop.hbase.util.Byt...
Java中HBase的使用 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apache.hadoop.hbase.util.Byt...
Linux 安装 redis 安装 redis:1. 下载:http://www.redis.cn/2. 上传到 root,解压3. 安装编译 redis 需要的 gcc-c++ 和 tcl 软件 yum install -y gcc-c++ yum install -y tcl4. 进入解压后的目录,使用 make 命令编译源代码5. 使用 make test 测试是否缺少依赖 缺什么用 y...
Linux中Hadoop 集群搭建 零、下载Hadoop:http://archive.cloudera.com/cdh5/cdh/5/?tdsourcetag=s_pctim_aiomsg一、集群规划:搭建的 hadoop 集群由 3 台服务器组成,分别叫做 master,salve1 和 slave2。其中 master 作为主节点,slave1 和 slave2 作为从节点。二、网络配置:1.查看 3 个节点的主机名...
Linux 发布项目(发现问题) 1. 需要服务器 —> 安装 Linux(master)2. 需要 tomcat 和 mysql —> jdk, tomcat, mysql3. 打包 web 项目上传到 webapps一台服务器达到性能上限,进行扩容:再安装两台 Linux(slave1 和 slave2),分别安装 jdk 和 tomcatmysql 都是用 master 的即可项目发布到 3 个服务器...