大数据入门
文章平均质量分 56
沙漏无语
生活中的沙漏
展开
-
spark笔试题1
1. Spark 的四大组件下面哪个不是 (D )A.Spark Streaming B MlibC Graphx D Spark R2.下面哪个端口不是 spark 自带服务的端口 (C )A.8080 B.4040 C.8090 D.180803.spark 1.4 版本的最大变化 (B )A spark sql Release 版本 B 引入 Spark RC Da...转载 2019-06-17 09:55:14 · 2798 阅读 · 0 评论 -
MR_wordcount的java编程实例
原创 2018-12-25 13:24:45 · 290 阅读 · 0 评论 -
eclipse中安装hadoop插件并运行wordcount
1:首先下载我们需要的 hadoop-eclipse-plugin-2.7.3.jar,winutils.exe 和 hadoop.dll链接地址:2:解压hadoop软件,并且安装到D盘的一个英文路径3:把hadoop.dll和winutile.exe放到hadoop的bin文件夹里4:右击我的电脑-->属性-->高级系统设置里面要配置三个属性:(1)变...原创 2018-12-25 11:36:42 · 1376 阅读 · 0 评论 -
myeclipse下搭建hadoop2.7.3开发环境
一 下载并编译 hadoop-eclipse-plugin-2.7.3.jar二 将hadoop-eclipse-plugin-2.7.3.jar放到myeclipse的安装目录下的plugins目录下,并重启myeclipse 在windows->preferences下可看见hadoop Map/Reduce界面,路径选择你WINDOWS下的hadoop解压后的路径。...原创 2018-12-21 10:43:33 · 195 阅读 · 0 评论 -
maven中搭建nexus-3.14私服
一、试验环境1、操作系统:Windows 10 2、nexus版本:nexus-3.14.0-04-win64Nexus常用功能就是:指定私服的中央地址、将自己的Maven项目指定到私服地址、从私服下载中央库的项目索引、从私服仓库下载依赖组件、将第三方项目jar上传到私服供其他项目组使用。二、安装1、下载地址:http://www.sonatype.com/download-os...原创 2018-12-10 14:20:13 · 1370 阅读 · 2 评论 -
IP地址,子网掩码,默认网关,DNS服务器详解
为了更深入的学习TCP/IP协议,最近看了不少有关资料,收集整理记录如下,以备后面的使用和方便各位学习: IP地址,子网掩码,默认网关,DNS服务器是什么意思? (一) 问题解析001. 问: IP地址,子网掩码,默认网关,DNS服务器,有什么区别呀?我知道没有IP地址就不能上网,我也知道没设DNS就不能上外网,可它们都有什么功能,有什么区别呢?还有真奇怪,我的计算机没设...原创 2018-12-12 16:20:57 · 740 阅读 · 1 评论 -
大数据入门(0)linux的基本命令
最近研究大数据,将linux的基本命令整理如下:1、设置图形界面 vim /etc/inittab2、清屏幕 clear3、创建用户,设置密码 useradd test passwd test4、切换用户 su - test5、查看当前目录, pwd, /home/test6、查看主机名 hostname 设置主机名: 方式一:hostname ...原创 2018-12-05 16:24:29 · 160 阅读 · 0 评论 -
大数据入门(25)sqoop快速入门
sqoop的使用----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具----实质就是将导入导出命令转换成mapreduce程序来实现sqoop安装:安装在一台节点上就可以了。1.上传sqoop2.安装和配置(1)修改配置文件 sqoop-env.sh #Set path to where bin/hadoop is available e...原创 2018-12-05 15:59:55 · 224 阅读 · 0 评论 -
大数据入门(24)kafka和storm的结合实例
1、原理:storm的lib下的jar, external\storm-kafka\storm-kafka-0.9.2-incubating.jar 此jar中的sqout已经写好2、/********** KafkaTopoMain :运行,在本地生成文件****************/public class KafkaTopoMain { public static void...原创 2018-12-05 15:58:35 · 225 阅读 · 0 评论 -
hive中常用的时间处理函数
日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(13233...转载 2019-01-16 16:01:26 · 2407 阅读 · 0 评论 -
Hbase基本概念
1. HBase简介1.1 什么是HBaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比...原创 2019-04-25 09:39:03 · 1198 阅读 · 0 评论 -
hbase测试题
1. HBase来源于哪篇博文? CA The Google File SystemB MapReduceC BigTableD Chubby2. 下面对HBase的描述哪些是正确的? B、C、DA不是开源的B是面向列的C是分布式的D是一种NoSQL数据库3. HBase依靠()存储底层数据 AA HDFSB HadoopC MemoryD MapReduc...转载 2019-04-25 08:58:50 · 12530 阅读 · 2 评论 -
hive中的几种排序的区别
hive的排序有四种: order by ,sort by,distribute by,cluster by1、order byorder by 是最常用的一种排序,全局排序,所有的数据会在一个reducer上面进行排序,所以一般使用这个函数进行排序的时候速度较慢。需要指出来的是,在strict模式下,order by 后面是必须加上limit 进行限制的。2、sort by...原创 2019-04-23 16:04:42 · 1328 阅读 · 0 评论 -
在hive中执行sql语句:SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:
报错,查看日志文件,如下的报错:原因:没有开启 metastore,需要先启动hive的metastore服务才行bin/hive --service metastore原创 2019-04-23 11:56:12 · 5251 阅读 · 0 评论 -
centos7 配置ip
有关于centos7获取IP地址的方法主要有两种,1:动态获取ip;2:设置静态IP地址在配置网络之前我们先要知道centos的网卡名称是什么,centos7不再使用ifconfig命令,可通过命令IP addr查看,如图,网卡名为ens32,是没有IP地址的1、动态获取ip(前提是你的路由器已经开启了DHCP)修改网卡配置文件 vi /etc/sysconfig/netw...原创 2019-03-01 15:38:34 · 302 阅读 · 0 评论 -
搭建Cloudera Manager环境
本文主要介绍如何搭建Cloudera Manager环境来管理大数据集群。这里注重的是搭建的过程,所以小编没用公司的服务器,而是在自己电脑上建了三台虚拟机(使用的是CentOS6.5),用作搭建Cloudera Manager环境。目录一、环境准备(在所有机器上操作)二、集群时间服务器三、MySQL的安装部署(在hadoop.cm01上安装即可)四、Cloudera Manag...原创 2019-03-01 10:39:22 · 572 阅读 · 0 评论 -
eclipse中安装python插件
1.下载python.exe安装http://mirrors.sohu.com/python/2.6.5/python-2.6.5rc2.msiwin7安装时,中间有段时间需要等待很长时间2.下载pydevhttp://sourceforge.net/projects/pydev/files/pydev/Pydev%202.2.0/PyDev%202.2.0.zip/downloa...原创 2019-01-30 14:24:39 · 781 阅读 · 0 评论 -
大数据全套教学视频,看仔细了是视频!
1、Hadoop—Spark企业应用实战强烈推荐版视频教程 链接: https://pan.baidu.com/s/1F082k-5oME38T-L8_AJn5g 密码: kfm72、Hadoop+Storm+Spark入门进阶实战视频教程链接: https://pan.baidu.com/s/1qZpoILm 密码: xtmb3、Hadoop大数据工程师零基础入门进阶实战视频课程...原创 2019-02-15 09:13:56 · 984 阅读 · 1 评论 -
大数据入门(23)kafka的第一个实例
导入kafka下lib的jar#################生产者:直接右键运行,weekend05的consumer会接收到#################################public class ProduceTest { public static void main(String[] args) throws Exception { Properties...原创 2018-12-05 15:57:19 · 185 阅读 · 0 评论 -
大数据入门(22)storm的第一个实例
public class RandomWordSpout extends BaseRichSpout{ private static final long serialVersionUID = 1L; private SpoutOutputCollector collector; //模拟一些数据 String[] words = {"iphone","xiaomi","mate",...原创 2018-12-05 15:56:06 · 236 阅读 · 0 评论 -
大数据入门(21)storm和kafka结合的实例
1、原理:storm的lib下的jar, external\storm-kafka\storm-kafka-0.9.2-incubating.jar 此jar中的sqout已经写好2、/********** KafkaTopoMain :运行,在本地生成文件****************/public class KafkaTopoMain { public static v...原创 2018-12-05 15:53:37 · 684 阅读 · 0 评论 -
大数据入门(10)序列化机制,mr流量求和
public class FlowBean implements WritableComparable<FlowBean>{ private String phoneNB; private long up_flow; private long d_flow; private long s_flow; //在反序列化时,反射...原创 2018-11-09 10:44:19 · 361 阅读 · 0 评论 -
大数据入门(9)mapreduce计算wordcount的程序编写
1、外部写好的程序打Java jar 包,导入jarsftp> put e:/wc.jar2、创建文本进行计算vi words.loghadoop fs -mkdir /wchadoop fs -mkdir /wc/srcData/3、运行jarhadoop jar wc.jar com.hadoop.mr.wordcount.WCRunnerhadoop jar w...原创 2018-11-09 10:42:13 · 464 阅读 · 0 评论 -
大数据入门(8)hdfs的客户端文件操作
package com.hadoop.hdfs;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache....原创 2018-11-09 10:39:16 · 330 阅读 · 0 评论 -
大数据入门(7)RPC客户端和RPC服务端通信
RPC客户端和RPC服务端通信:客户端:(导入jar:hdfs,common相关的)LoginControl:public class LoginControl { public static void main(String[] args) throws IOException { LoginService proxy = RPC.getProxy(LoginS...原创 2018-11-09 10:38:00 · 757 阅读 · 0 评论 -
大数据入门(6)hdfs的客户端java
从hdfs中copy 文件到当前虚拟机1、导入jar E:\lib\hadoop-2.4.1\share\hadoop\hdfs E:\lib\hadoop-2.4.1\share\hadoop\common2、copy 安装的Hadoop下的文件 core-site.xml hdfs-site.xml public static vo...原创 2018-11-09 10:36:22 · 152 阅读 · 0 评论 -
大数据入门(5)配置ssh免密登陆
登陆的1151、使用ssh登陆 ssh 192.168.1.116 输入密码 登陆成功 退出:exit2、配置免密登陆 配置ssh免登陆 第一步:生成ssh免登陆密钥 ssh-keygen -t rsa (四个回车) 执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)...原创 2018-11-09 10:34:07 · 272 阅读 · 0 评论 -
大数据入门(3)配置hadoop
1、上传hadoop-2.4.1.tar.gz2、解压文件到指定目录(目录:admin/app) mkdir app tar -zxvf hadoop-2.4.1.tar.gz -C /app 删除share下的doc文件(目录:/home/admin/app/hadoop-2.4.1/share) rm -rf doc 3、修改配置文件(目录:/home/a...原创 2018-11-09 10:28:36 · 189 阅读 · 0 评论 -
大数据入门(2)安装linux的jdk
1、上传文件到linuxalt+p 进入ftp传文件sftp> put E:\soft\jdk-7u71-linux-x64.tar.gz2、创建文件夹解压文件(root用户权限)mkdir /usr/javatar -zxvf jdk-7u71-linux-x64.tar.gz -C /usr/java3、配置jdk环境变量vim /etc/profile...原创 2018-11-09 10:27:15 · 152 阅读 · 0 评论 -
大数据入门(11)mr自定义分组和切片划分
public class AreaPartitioner<KEY, VALUE> extends Partitioner<KEY, VALUE>{ private static HashMap<String,Integer> areaMap = new HashMap<String,Integer>(); static{ are...原创 2018-11-10 12:51:20 · 767 阅读 · 0 评论 -
大数据入门(12)mr倒排索引.
package com.hadoop.hdfs.mr.flowsort;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org....原创 2018-11-10 12:52:29 · 307 阅读 · 0 评论 -
大数据入门(20)kafka安装配置
kafka基本概念1、kafka是一个分布式的消息缓存系统2、kafka集群中的服务器都叫做broker3、kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4、kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5、每一个分区...原创 2018-11-10 13:39:02 · 615 阅读 · 0 评论 -
大数据入门(19)storm安装配置
1、安装一个zookeeper集群 使用weekend05,weekend06,weekend07安装有zookeeper集群 2、上传storm的安装包,解压 需要3台机子,nimbus(协调管理)、supervisor-01(负责具体运算)、supervisor-01(负责具体运算)3、修改配置文件storm.yaml #所使用的zookeeper集群主机 ...原创 2018-11-10 13:37:07 · 236 阅读 · 0 评论 -
大数据入门(18)hbase的shell语法
进入hbase命令行(bin下运行)./hbase shell帮助help显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列...原创 2018-11-10 13:35:22 · 292 阅读 · 0 评论 -
大数据入门(17)hbase集群搭建
1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) (1)修改hbase-env.sh export JAVA_HOME=/home/admin/app/java/jdk1.7.0_71 //告诉hbase使用外部的zk export...原创 2018-11-10 13:29:22 · 198 阅读 · 0 评论 -
大数据入门(16)mysql5.6.26的rpm方式安装
rpm方式安装(需要使用root权限)root 用户(或者admin 账户使用root 权限 :sudo ;设置:vim /etc/sudoers),考虑到一系列的操作,直接用root1、上传.tar文件到某一单独文件夹解压:tar -xvf MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar2、添加mysql用户组和用户 ...原创 2018-11-10 13:27:29 · 453 阅读 · 0 评论 -
大数据入门(15)hive简介和配置
1、上传文件,解压到app 下 tar -zxvf 文件 -C app2、不配置文件的情况下 启动 :./hive (目录:/home/admin/app/hive/bin) 创建表: create table t_1(id int ,name string); 查看:show tables; 退出:exit;当前目录下生产文件: metas...原创 2018-11-10 13:26:20 · 310 阅读 · 0 评论 -
大数据入门(14)hadoop+yarn+zookeeper集群搭建
1、右键clone虚拟机,进入图形界面,修改虚拟机ip即可,相关环境变量配置都存在2、集群规划:(必须设置主机名,配置主机名和ip的映射关系,每个文件都需要配置映射关系) 主机名 IP 安装的软件 运行的进程 weekend01 192.168.1.113 jdk、hadoop ...原创 2018-11-10 12:56:47 · 480 阅读 · 0 评论 -
大数据入门(13)zookeeper的安装配置
1、上传zookeeper-3.4.6.tar.gz2、解压文件到指定目录(目录:admin/app) tar -zxvf zookeeper-3.4.6.tar.gz -C /app3、配置(一台节点上) 3.1添加一个zoo.cfg配置文件(/home/admin/app/zookeeper-3.4.6/conf) $ZOOKEEPER/conf ...原创 2018-11-10 12:54:03 · 194 阅读 · 0 评论 -
大数据入门(1)准备linux环境
1、安装vmware 2、新建虚拟机file - new virtual machineinstall disc image file(iso) 选择镜像文件选择虚拟机安装路径,方便以后copy3、设置虚拟机ip()第一步: edit - virtual network editor - 选择 bridged 第二步: 进入Linux图形界面 ...原创 2018-11-09 10:24:02 · 391 阅读 · 0 评论