
大数据入门
沙漏无语
沙漏是时间的诗篇,是岁月的印记,承载着过往与未来。
展开
-
大数据入门(4)hdfs的shell语法
1、测试hdfs文件上传和下载(HDFS shell) 1.0查看帮助 hadoop fs -help <cmd> 1.1上传 hadoop fs -put <linux上文件> <hdfs上的路径> hadoop fs -put jdk-7u71-linux-x64.ta...原创 2018-11-09 10:29:57 · 328 阅读 · 0 评论 -
大数据入门(16)mysql5.6.26的rpm方式安装
rpm方式安装(需要使用root权限)root 用户(或者admin 账户使用root 权限 :sudo ;设置:vim /etc/sudoers),考虑到一系列的操作,直接用root1、上传.tar文件到某一单独文件夹解压:tar -xvf MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar2、添加mysql用户组和用户 ...原创 2018-11-10 13:27:29 · 524 阅读 · 0 评论 -
大数据入门(17)hbase集群搭建
1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) (1)修改hbase-env.sh export JAVA_HOME=/home/admin/app/java/jdk1.7.0_71 //告诉hbase使用外部的zk export...原创 2018-11-10 13:29:22 · 245 阅读 · 0 评论 -
大数据入门(18)hbase的shell语法
进入hbase命令行(bin下运行)./hbase shell帮助help显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列...原创 2018-11-10 13:35:22 · 361 阅读 · 0 评论 -
大数据入门(19)storm安装配置
1、安装一个zookeeper集群 使用weekend05,weekend06,weekend07安装有zookeeper集群 2、上传storm的安装包,解压 需要3台机子,nimbus(协调管理)、supervisor-01(负责具体运算)、supervisor-01(负责具体运算)3、修改配置文件storm.yaml #所使用的zookeeper集群主机 ...原创 2018-11-10 13:37:07 · 290 阅读 · 0 评论 -
大数据入门(20)kafka安装配置
kafka基本概念1、kafka是一个分布式的消息缓存系统2、kafka集群中的服务器都叫做broker3、kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4、kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5、每一个分区...原创 2018-11-10 13:39:02 · 739 阅读 · 0 评论 -
大数据入门(21)storm和kafka结合的实例
1、原理:storm的lib下的jar, external\storm-kafka\storm-kafka-0.9.2-incubating.jar 此jar中的sqout已经写好2、/********** KafkaTopoMain :运行,在本地生成文件****************/public class KafkaTopoMain { public static v...原创 2018-12-05 15:53:37 · 741 阅读 · 0 评论 -
大数据入门(22)storm的第一个实例
public class RandomWordSpout extends BaseRichSpout{ private static final long serialVersionUID = 1L; private SpoutOutputCollector collector; //模拟一些数据 String[] words = {"iphone","xiaomi","mate",...原创 2018-12-05 15:56:06 · 312 阅读 · 0 评论 -
大数据入门(23)kafka的第一个实例
导入kafka下lib的jar#################生产者:直接右键运行,weekend05的consumer会接收到#################################public class ProduceTest { public static void main(String[] args) throws Exception { Properties...原创 2018-12-05 15:57:19 · 237 阅读 · 0 评论 -
大数据入门(24)kafka和storm的结合实例
1、原理:storm的lib下的jar, external\storm-kafka\storm-kafka-0.9.2-incubating.jar 此jar中的sqout已经写好2、/********** KafkaTopoMain :运行,在本地生成文件****************/public class KafkaTopoMain { public static void...原创 2018-12-05 15:58:35 · 269 阅读 · 0 评论 -
大数据入门(25)sqoop快速入门
sqoop的使用----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具----实质就是将导入导出命令转换成mapreduce程序来实现sqoop安装:安装在一台节点上就可以了。1.上传sqoop2.安装和配置(1)修改配置文件 sqoop-env.sh #Set path to where bin/hadoop is available e...原创 2018-12-05 15:59:55 · 276 阅读 · 0 评论 -
大数据入门(0)linux的基本命令
最近研究大数据,将linux的基本命令整理如下:1、设置图形界面 vim /etc/inittab2、清屏幕 clear3、创建用户,设置密码 useradd test passwd test4、切换用户 su - test5、查看当前目录, pwd, /home/test6、查看主机名 hostname 设置主机名: 方式一:hostname ...原创 2018-12-05 16:24:29 · 208 阅读 · 0 评论 -
大数据入门(15)hive简介和配置
1、上传文件,解压到app 下 tar -zxvf 文件 -C app2、不配置文件的情况下 启动 :./hive (目录:/home/admin/app/hive/bin) 创建表: create table t_1(id int ,name string); 查看:show tables; 退出:exit;当前目录下生产文件: metas...原创 2018-11-10 13:26:20 · 363 阅读 · 0 评论 -
大数据入门(14)hadoop+yarn+zookeeper集群搭建
1、右键clone虚拟机,进入图形界面,修改虚拟机ip即可,相关环境变量配置都存在2、集群规划:(必须设置主机名,配置主机名和ip的映射关系,每个文件都需要配置映射关系) 主机名 IP 安装的软件 运行的进程 weekend01 192.168.1.113 jdk、hadoop ...原创 2018-11-10 12:56:47 · 549 阅读 · 0 评论 -
大数据入门(2)安装linux的jdk
1、上传文件到linuxalt+p 进入ftp传文件sftp> put E:\soft\jdk-7u71-linux-x64.tar.gz2、创建文件夹解压文件(root用户权限)mkdir /usr/javatar -zxvf jdk-7u71-linux-x64.tar.gz -C /usr/java3、配置jdk环境变量vim /etc/profile...原创 2018-11-09 10:27:15 · 206 阅读 · 0 评论 -
大数据入门(3)配置hadoop
1、上传hadoop-2.4.1.tar.gz2、解压文件到指定目录(目录:admin/app) mkdir app tar -zxvf hadoop-2.4.1.tar.gz -C /app 删除share下的doc文件(目录:/home/admin/app/hadoop-2.4.1/share) rm -rf doc 3、修改配置文件(目录:/home/a...原创 2018-11-09 10:28:36 · 246 阅读 · 0 评论 -
大数据入门(5)配置ssh免密登陆
登陆的1151、使用ssh登陆 ssh 192.168.1.116 输入密码 登陆成功 退出:exit2、配置免密登陆 配置ssh免登陆 第一步:生成ssh免登陆密钥 ssh-keygen -t rsa (四个回车) 执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)...原创 2018-11-09 10:34:07 · 356 阅读 · 0 评论 -
大数据入门(6)hdfs的客户端java
从hdfs中copy 文件到当前虚拟机1、导入jar E:\lib\hadoop-2.4.1\share\hadoop\hdfs E:\lib\hadoop-2.4.1\share\hadoop\common2、copy 安装的Hadoop下的文件 core-site.xml hdfs-site.xml public static vo...原创 2018-11-09 10:36:22 · 207 阅读 · 0 评论 -
大数据入门(7)RPC客户端和RPC服务端通信
RPC客户端和RPC服务端通信:客户端:(导入jar:hdfs,common相关的)LoginControl:public class LoginControl { public static void main(String[] args) throws IOException { LoginService proxy = RPC.getProxy(LoginS...原创 2018-11-09 10:38:00 · 818 阅读 · 0 评论 -
大数据入门(8)hdfs的客户端文件操作
package com.hadoop.hdfs;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache....原创 2018-11-09 10:39:16 · 384 阅读 · 0 评论 -
大数据入门(9)mapreduce计算wordcount的程序编写
1、外部写好的程序打Java jar 包,导入jarsftp> put e:/wc.jar2、创建文本进行计算vi words.loghadoop fs -mkdir /wchadoop fs -mkdir /wc/srcData/3、运行jarhadoop jar wc.jar com.hadoop.mr.wordcount.WCRunnerhadoop jar w...原创 2018-11-09 10:42:13 · 528 阅读 · 0 评论 -
大数据入门(10)序列化机制,mr流量求和
public class FlowBean implements WritableComparable<FlowBean>{ private String phoneNB; private long up_flow; private long d_flow; private long s_flow; //在反序列化时,反射...原创 2018-11-09 10:44:19 · 426 阅读 · 0 评论 -
大数据入门(11)mr自定义分组和切片划分
public class AreaPartitioner<KEY, VALUE> extends Partitioner<KEY, VALUE>{ private static HashMap<String,Integer> areaMap = new HashMap<String,Integer>(); static{ are...原创 2018-11-10 12:51:20 · 840 阅读 · 0 评论 -
大数据入门(12)mr倒排索引.
package com.hadoop.hdfs.mr.flowsort;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org....原创 2018-11-10 12:52:29 · 384 阅读 · 0 评论 -
大数据入门(13)zookeeper的安装配置
1、上传zookeeper-3.4.6.tar.gz2、解压文件到指定目录(目录:admin/app) tar -zxvf zookeeper-3.4.6.tar.gz -C /app3、配置(一台节点上) 3.1添加一个zoo.cfg配置文件(/home/admin/app/zookeeper-3.4.6/conf) $ZOOKEEPER/conf ...原创 2018-11-10 12:54:03 · 251 阅读 · 0 评论 -
大数据入门(1)准备linux环境
1、安装vmware 2、新建虚拟机file - new virtual machineinstall disc image file(iso) 选择镜像文件选择虚拟机安装路径,方便以后copy3、设置虚拟机ip()第一步: edit - virtual network editor - 选择 bridged 第二步: 进入Linux图形界面 ...原创 2018-11-09 10:24:02 · 459 阅读 · 0 评论