![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 79
深海少女心
狮子女,相信“Where there is a will,there's a way!”
展开
-
Hive交互方式
一,shell交互Hive,用命令hive启动一个hive的shell命令行,在命令行中输入sql或者命令来和Hive交互。命令:bin/hive–在根目录下退出命令行:ctrl+c优点:sql或者命令执行完了,还在shell命令行缺点:必须可以直接远程访问到hive所在的机器。二,Hive启动为一个服务器,对外提供服务,其他机器可以通过客户端通过协议连接到服务器,来完成访问操作,这...原创 2019-05-23 14:35:56 · 677 阅读 · 0 评论 -
svn客户端的安装和使用
SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS、CVS,它采用了分支管理系统,它的设计目标就是取代CVS。SVN的下载安装下载地址:https://tortoisesvn.net/downloads.zh.html安装完不要忘记重启电脑安装完成后,按下鼠标右键,会看到如下界面:SVN的常用操作1、迁出配置库内容(SVN Checkout)1)新建或...原创 2019-07-15 19:40:36 · 164 阅读 · 0 评论 -
Hive和Hbase的区别
首先Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive本身不存储数据,它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的SQL查询功能,并将SQL语句最终转换为MapReduce任务进行运行。 而HBase表是物理表,适合存放非结构化的数据。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,...原创 2019-07-15 20:08:26 · 364 阅读 · 0 评论 -
GitHub使用方法
1.创建仓库,在GitHub中点击New repository接着Start a Project即可:没有仓库,会显示如下图所示:现在我新建一个测试仓库Test-mr:Step1.填写必要信息:Step2.浏览仓库主页2.创建文件在刚刚的仓库主页中点击 Create new file 按钮,即可进入新文件页面:4 删除文件在指定的文件名处直接点击文件名链接,即可进入文件信息...原创 2019-07-16 16:36:00 · 127 阅读 · 0 评论 -
svn和git的区别
一、SVN的优势优异的跨平台支持,对windows平台支持非常友好简单易用,安装后稍微培训下就知道怎么操作代码、需求、文档、涉及稿都可以用svn进行管理,适合不同部门非技术的同事协作二、Git的优势1.去中心化:Git没有中心服务器,每个人机器上都是一台完整的库我们平时开发代码时的中央服务器其实和我们自己机器上的库内容一样的(格式有点不同,是bare的)。虽然平时大家都是将代码提交到...原创 2019-07-16 20:03:22 · 376 阅读 · 0 评论 -
Oracle使用Scott用户登录
Oracle有3种用户:system、sys、scott,当中system和sys的差别在与是否能创建数据库,sys用户登录才能够创建数据库,而scott是给刚开始学习的人学习的用户。学习者能够用Scott登录系统,注意scott用户登录后,就能够使用Oracle提供的数据库和数据表,这些都是oracle提供的。学习者不须要自己创建数据库和数据表,直接使用这些数据库和数据表练习SQL。1、打开...原创 2019-07-29 16:15:32 · 8892 阅读 · 0 评论 -
Spark学习之Spark初识
一、什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,...原创 2019-07-22 17:27:26 · 119 阅读 · 0 评论 -
Hadoop生态圈及组件简介
一、生态圈概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark。...转载 2019-07-26 20:28:45 · 442 阅读 · 0 评论 -
Hadoop回顾-
一、Hadoop的起源Doug Cutting是Hadoop之父 ,起初他开创了一个开源软件Lucene(用Java语言编写,提供了全文检索引擎的架构,与Google类似),Lucene后来面临与Google同样的错误。于是,Doug Cutting学习并模仿Google解决这些问题的办法,产生了一个Lucene的微缩版Nutch。后来,Doug Cutting等人根据2003-2004年Go...原创 2019-07-27 10:49:47 · 182 阅读 · 0 评论 -
由于连接方在一段时间没有正确答复或连接的解决办法
安装好之后的checkout项目,一直出错:“由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败”,解决办法可查看一下四点:svn项目配置文件问题:解决方法:检查重新配置svn项目中的authz、passwd、svnserve.conf防火墙问题:开启了防火墙解决方法:1:关闭防火墙、2:开放3690端口svn客户端:有历史数据解决方法:清除认证数据等svn未启动...转载 2019-07-15 16:47:56 · 15530 阅读 · 0 评论 -
SVN服务器的安装与使用
什么是SVN?SVN是subversion的缩写,是一个开放源代码的版本控制系统,通过采用分支管理系统的高效管理,简而言之就是用于多个人共同开发同一个项目,实现共享资源,实现最终集中式的管理。简单来说,5个特点:上传代码/文件安装客户端备份代码/文件联名测试版本管控一、centos7操作系统安装svn服务器1、更新系统软件sudo yum update2、安装svns...原创 2019-07-15 16:29:35 · 142 阅读 · 0 评论 -
Hadoop安装步骤
一、下载二、解压三、配置环境变量四、配置原创 2019-06-28 10:42:27 · 103 阅读 · 0 评论 -
Hive映射结构化数据
一、上传一个结构化数据到hdfs的目录/hivedata比如上传student.hive数据文件vi student.hive插入数据创建一个文件夹hdfs dfs -mkdir /hivedata上传至hdfs文件夹hdfs dfs -put student.hive /hivedata查看hdfs dfs -ls /hivedata二、 在hive...原创 2019-05-23 16:22:23 · 1634 阅读 · 0 评论 -
Hive映射结构化数据经验小结
1.对结构化数据的处理,都是通过操作hive中的映射表完成,比如查询数据的个数:select count(*) from t_1;总结:hive创建一张表,跟已经存在的结构化数据文件产生映射关系,映射成功之后,就可以通过sql来对结构化数据进行分析,避免写mr的麻烦。数据库和/user/hive/warehouse/xx文件夹映射,表和/user/hive/warehouse/xx文件...原创 2019-05-23 16:56:41 · 975 阅读 · 0 评论 -
hive创建table时指定分隔符
由于hive由java编写,所以row format delimited fields terminated by 后也可以使用java的方式输入特殊字符,比如用java的转义字符——反斜杠()+0+八进制数字可以代表任意ASCII码,或者用\u + 四位数字可以代表任意Unicode字符。比如hive创建表格的默认分隔符为SOH字符,ASCII码中的序号为1,所以可以用’\001’表示。数据...原创 2019-05-23 17:38:31 · 9083 阅读 · 2 评论 -
Flume原理简单部分解析
1.Flume简介Flume是Cloudera提供的一款高可用,可靠,分布式的海量日志采集、聚合和传输的软件。Flume的核心功能是把数据从数据源收集过来,再将收集到的数据输送到目的地sink,为了保证整个输送过程一定成功,在输送到目的地之前会先缓存数据(channel),在数据真正到达目的地后,Flume再删除缓存。Flume支持定制各类数据发送方,用于收集各类数据;同时支持定制各类数据接...原创 2019-05-28 17:17:39 · 258 阅读 · 0 评论 -
Flume安装部署及采集案例
一、Telnet 客户端安装为什么需要telnet? telnet就是查看某个端口是否可访问。我们在搞开发的时候,经常要用的端口就是 8080。那么你可以启动服务器,用telnet 去查看这个端口是否可用。 Telnet协议是TCP/IP协议家族中的一员,是Internet远程登陆服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。在终端使用者的电脑上使用te...原创 2019-05-29 09:39:16 · 414 阅读 · 0 评论 -
Eclipse导入外部jar包
在编写java代码时,为方便编程,常常会引用别人已经实现的方法,通常会封装成jar包,我们在编写时,只需引入到Eclipse中即可。下面配图说明3种Eclipse引入jar包的方式。1. 最常用的普通操作方式:基本步骤右击“项目”→选择Properties,在弹出的对话框左侧列表中选择Java Build Path,如下图所示:选择Add External JARs,就可以逐个(也可以选择多...原创 2019-06-04 16:18:41 · 616 阅读 · 0 评论 -
hadoop之Hive--一个牛逼的数据仓库
一、Hive简介Hive是基于hadoop的数据仓库工具,Hive借助于hadoop的hdfs和mapreduce来实现数据存储和数据分析功能的。可以将结构化的数据文件映射为一个数据库表,并提供类sql查询功能,其本质是用户使用类sql语句,hive会转化为mr程序,从而完成数据的分析。所以Hive的用途被用来作为离线数据分析,比直接开发mr程序效率高。Hive的历史 由FaceBook 实...原创 2019-06-25 13:12:40 · 191 阅读 · 0 评论 -
HDFS简述及其三种运行模式
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目...原创 2019-06-27 12:01:46 · 1705 阅读 · 0 评论 -
Spark学习之路
背景目前按照大数据处理类型来分大致可以分为:批量数据处理、交互式数据查询、实时数据流处理,这三种数据处理方式对应的业务场景也都不一样;关注大数据处理的应该都知道Hadoop,而Hadoop的核心为HDFS与MapReduce,HDFS分布式文件系统在Hadop中是用来存储数据的;MapReduce为Hadoop处理数据的核心,接触过函数式编程的都知道函数式语言中也存在着Map、Reduce函数其...转载 2019-07-27 16:32:04 · 150 阅读 · 0 评论