理论概念
深海少女心
狮子女,相信“Where there is a will,there's a way!”
展开
-
Linux 主机名hostname配置文件/etc/hosts详解
1.什么是主机名无论在局域网还是INTERNET上,每台主机都有一个IP地址,是为了区分此台主机和彼台主机,也就是说IP地址就是主机的门牌号。但IP地址不方便记忆,所以又有了域名。域名只是在公网(INtERNET)中存在(以实验为目的的局域网域网实验性除外),每个域名都对应一个IP地址,但一个IP 地址可有对应多个域名。域名类型 Linux sir.org 这样的;主机名是用于什么的呢?在一个...转载 2019-05-12 10:52:46 · 1320 阅读 · 0 评论 -
Hadoop回顾-
一、Hadoop的起源Doug Cutting是Hadoop之父 ,起初他开创了一个开源软件Lucene(用Java语言编写,提供了全文检索引擎的架构,与Google类似),Lucene后来面临与Google同样的错误。于是,Doug Cutting学习并模仿Google解决这些问题的办法,产生了一个Lucene的微缩版Nutch。后来,Doug Cutting等人根据2003-2004年Go...原创 2019-07-27 10:49:47 · 191 阅读 · 0 评论 -
Spark学习之Spark初识
一、什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,...原创 2019-07-22 17:27:26 · 144 阅读 · 0 评论 -
svn和git的区别
一、SVN的优势优异的跨平台支持,对windows平台支持非常友好简单易用,安装后稍微培训下就知道怎么操作代码、需求、文档、涉及稿都可以用svn进行管理,适合不同部门非技术的同事协作二、Git的优势1.去中心化:Git没有中心服务器,每个人机器上都是一台完整的库我们平时开发代码时的中央服务器其实和我们自己机器上的库内容一样的(格式有点不同,是bare的)。虽然平时大家都是将代码提交到...原创 2019-07-16 20:03:22 · 402 阅读 · 0 评论 -
Hive和Hbase的区别
首先Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive本身不存储数据,它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的SQL查询功能,并将SQL语句最终转换为MapReduce任务进行运行。 而HBase表是物理表,适合存放非结构化的数据。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,...原创 2019-07-15 20:08:26 · 377 阅读 · 0 评论 -
Flume安装部署及采集案例
一、Telnet 客户端安装为什么需要telnet? telnet就是查看某个端口是否可访问。我们在搞开发的时候,经常要用的端口就是 8080。那么你可以启动服务器,用telnet 去查看这个端口是否可用。 Telnet协议是TCP/IP协议家族中的一员,是Internet远程登陆服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。在终端使用者的电脑上使用te...原创 2019-05-29 09:39:16 · 427 阅读 · 0 评论 -
Flume原理简单部分解析
1.Flume简介Flume是Cloudera提供的一款高可用,可靠,分布式的海量日志采集、聚合和传输的软件。Flume的核心功能是把数据从数据源收集过来,再将收集到的数据输送到目的地sink,为了保证整个输送过程一定成功,在输送到目的地之前会先缓存数据(channel),在数据真正到达目的地后,Flume再删除缓存。Flume支持定制各类数据发送方,用于收集各类数据;同时支持定制各类数据接...原创 2019-05-28 17:17:39 · 269 阅读 · 0 评论 -
hive创建table时指定分隔符
由于hive由java编写,所以row format delimited fields terminated by 后也可以使用java的方式输入特殊字符,比如用java的转义字符——反斜杠()+0+八进制数字可以代表任意ASCII码,或者用\u + 四位数字可以代表任意Unicode字符。比如hive创建表格的默认分隔符为SOH字符,ASCII码中的序号为1,所以可以用’\001’表示。数据...原创 2019-05-23 17:38:31 · 9160 阅读 · 2 评论 -
Hive映射结构化数据经验小结
1.对结构化数据的处理,都是通过操作hive中的映射表完成,比如查询数据的个数:select count(*) from t_1;总结:hive创建一张表,跟已经存在的结构化数据文件产生映射关系,映射成功之后,就可以通过sql来对结构化数据进行分析,避免写mr的麻烦。数据库和/user/hive/warehouse/xx文件夹映射,表和/user/hive/warehouse/xx文件...原创 2019-05-23 16:56:41 · 989 阅读 · 0 评论 -
linux下的Zookeeper集群介绍
一、Zookeeper原理简介ZooKeeper是一个开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。zookeeper是一个分布式服务协调开源框架,用来解决分布式集群应用系统一致性的问题。例如避免同时读写一个数据造成的脏读问题。zookeeper是一个分布式小文件存储系统,提供类似于文件系统目录树方式的数据存储,并且可...原创 2019-05-13 14:13:55 · 159 阅读 · 0 评论 -
Spark学习之路
背景目前按照大数据处理类型来分大致可以分为:批量数据处理、交互式数据查询、实时数据流处理,这三种数据处理方式对应的业务场景也都不一样;关注大数据处理的应该都知道Hadoop,而Hadoop的核心为HDFS与MapReduce,HDFS分布式文件系统在Hadop中是用来存储数据的;MapReduce为Hadoop处理数据的核心,接触过函数式编程的都知道函数式语言中也存在着Map、Reduce函数其...转载 2019-07-27 16:32:04 · 178 阅读 · 0 评论