Hadoop
QuietHRH
这个作者很懒,什么都没留下…
展开
-
VMware SSH
VMware虚拟网络网卡(网络适配器 network adapter) : 在网络上拥有独一无二的MAC地址交换机 : 可以把一些电脑连接在一起组成一个局域网虚拟网桥: 一个局域网与另一个局域网之间建立连接的桥梁。网桥两边网络拓扑地位一样虚拟DHCP服务器: 给内部网络自动分配 IP 地址 作为对所有计算机作中央管理的手段。虚拟net服务器( Network Address T...原创 2018-11-10 11:30:43 · 943 阅读 · 0 评论 -
HDFS入门(二)
HDFS元数据元数据 按类型分文件, 目录自身的属性信息文件的存储块信息 分块情况 副本个数DN的信息元数据 按形式分内存元数据包含hdfs最完整的数据磁盘元数据fsimage镜像文件包含hdfs的所有目录和文件元数据信息, 但不包括文件块位置的信息, 文件块位置信息只存储在内存中, DN加入集群时, 汇报自己所拥有的块信息给NN, 并且一直更新edit...原创 2018-11-25 22:47:04 · 216 阅读 · 0 评论 -
Yarn入门
Yarn入门Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度yarn 并不清楚用户提交的程序的运行机制yarn 只提供运算资源的调度(用户程序向 yarn 申请资源,yarn 就负责分配资源)...原创 2018-11-25 22:46:24 · 660 阅读 · 0 评论 -
MapReduce入门(三)
MapReduce工作MapTaskInputFormat (默认 TextInputFormat)会通过 getSplits方法对输入目录中文件进行逻辑切片规划得到 splits,有几个切片就有几个maptask将输入文件切分为splits之后 , 由 RecordReader 对 象(默认LineRecordReader)一行一行读,返回kv对 Key 表示每行首字符偏移值...原创 2018-11-25 22:44:49 · 158 阅读 · 0 评论 -
离线计算流程
数据采集Flume 收集服务器日志到hdfstype=taildir taildir可以监控一个目录, 也可以用一个正则表达式匹配文件名进行实时收集taildir=spooldir + exec + 支持断点续传agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1agent1.sour...原创 2018-11-25 22:43:16 · 973 阅读 · 0 评论 -
MapReduce流量统计
MapReduce流量统计源数据1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200...原创 2018-11-17 22:22:50 · 1110 阅读 · 1 评论 -
MapReduce入门 ( 二 )
MapReduce入门( 二 )mr编程中, 利用好key的特性排序 默认为字典序分区 默认为key的哈希值对reducertask数量取模分组 默认为key相同的为一组在mr编程中,可以把上一个mr的输出目录直接作为下一个mr的输入 mr程序能够自动识别里面什么是检验性文件 什么是成功标识文件 什么是真正的数据文件mr默认分区源码: 类HashPartitionmr...原创 2018-11-17 22:09:34 · 219 阅读 · 0 评论 -
MapReduce入门( 一 )
MapReduce入门简介mapreduce 分布式计算框架核心思想: 分而治之map : 将复杂任务拆分为多个小任务, 并行处理 ( 前提是各个小任务之间没有依赖关系)reduce : 将map阶段的结果进行汇总核心功能: 将用户编写的业务逻辑代码和自带默认组件整合成完整的分布式运算程序, 运行在hadoop集群上表现形式: 键值对的输入输出框架结构: 一个...原创 2018-11-17 22:02:08 · 210 阅读 · 0 评论 -
数据仓库Hive入门( 二 )
数据仓库Hive入门( 二 )hive是将结构化文件映射为一张数据表, 通过sql操作数据的hive数据类型除了支持sql的类型外 还支持java类型 且大小写不敏感DDL结构化文件存放的位置内部表结构化文件存储在hive指定的hdfs文件夹 /user/hive/warehousesql执行删除表操作时, 对应的hdfs文件夹也被删除, 数据清空外部表s...原创 2018-11-22 20:06:21 · 320 阅读 · 0 评论 -
数据仓库Hive入门( 一 )
数据仓库Hive入门(一)数据仓库数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。它出于分析性报告和决策支持目的而创建数据仓库不生产数据,数据来源于外部(数据库,日志,爬虫等) 也不消费数据, 属于提供给外部应用使用特性面向主题 面向分析, ...原创 2018-11-19 23:12:25 · 195 阅读 · 0 评论 -
Flume入门
Flume入门Flume 是 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后flume 在删除自己缓存的数据。Agent三个组件Source...原创 2018-11-19 23:10:26 · 260 阅读 · 0 评论 -
Hadoop入门
Hadoop入门简介及搭建简介Hadoop是apache旗下的用java语言实现的开源软件框架狭义 : 是一个软件,框架HDFS ( 分布式文件系统) 解决了海量数据的存储问题YARN( 资源管理 任务调度) 解决了集群中资源管理的问题MAPREDUCE( 分布式计算框架 ) 解决了海量数据的计算问题广义 : hadoop是一个生态圈,是一个平台特性扩容能力 在可...原创 2018-11-14 21:18:46 · 154 阅读 · 0 评论 -
HDFS入门
HDFS入门Hadoop Distribute File System hadoop分布式文件系统分布式多台机器 解决文件存不下的问题存储元数据 解决数据查询不方便的问题分块存储 解决数据上传下载问题副本机制 解决数据丢失安全问题特性主从架构 主节点从节点各司其职分块存储 hadoop2....原创 2018-11-15 21:20:39 · 255 阅读 · 0 评论 -
ngnix+lua+js埋点 实现自定义日志采集
ngnix+lua+js埋点 实现自定义日志采集1 收集数据的页面js埋点: 在想要手机数据的页面预先放一段js代码, 当用户发生行为时, 触发js方法, 收集数据,发到后端http://192.168.4.101/index.html 这里的index.html page1.html page2.html 放在101的tomcat中在页面js中添加点击事件 点击事件触发后, ...原创 2018-11-13 21:00:09 · 1612 阅读 · 0 评论 -
Zookeeper
Zookeeperzookeeper是一个分布式协调服务的开源框架,解决分布式集群中应用系统的一致性问题zookeeper本质是一个分布式的小文件存储系统,基于目录树方式主从集群:主角色 leader master 大哥从角色 follower slave 小弟主从角色各司其职,从角色要收到主角色的管理。(常见的是一主多从)主备集群:主角色 active...原创 2018-11-13 20:59:43 · 196 阅读 · 0 评论 -
Shell编程
Shell编程shell是C语言写的程序 通过shell可以访问系统内核shell既是命令语言, 又是程序设计语言shell编程一般是指编写shell script脚本编程shell编程只需要 文本编辑器和脚本解释器bash是大多数linux默认的shell ( /etc/shells )基本格式hello.sh 扩展名不影响脚本执行 见名知意 如果用php编写脚本 就用....原创 2018-11-10 16:25:07 · 215 阅读 · 0 评论 -
Linux加强
Linux加强查找grep 文本搜索工具,使用正则表达式搜索文本 grep [option] pattern [file]ps -ef | grep sshd 查找指定 ssh 服务进程ps -ef | grep sshd | grep -v grep 查找指定服务进程,排除 grep 本身ps -ef | grep sshd –c 查找指定进程个数cat a.txt ...原创 2018-11-10 11:31:38 · 209 阅读 · 0 评论 -
Hadoop入门(二)
Hadoop ArchivesHDFS 并不擅长存储小文件,因为每个文件最少一个 block,每个 block 的元数据都会在 NameNode 占用内存,如果存在大量的小文件,它们会吃掉NameNode 节点的大量内存。Hadoop Archives 可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件。 类似压缩shell命令创建档...原创 2018-11-25 22:48:13 · 192 阅读 · 0 评论