- 博客(18)
- 收藏
- 关注
原创 Flume-采集目录到HDFS
需求 某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去思路 根据需求,首先定义以下3大要素1. 数据源组件,即source ——监控文件目录 : spooldir 1. 监视一个目录,只要目录中出现新文件,就会采集文件中的内容 2. 采集完成的文件,会被agent自动添加一个后缀:COMPLETED...
2020-01-29 12:36:32 996
原创 MapReduce之shuffle详解
shuffle 是 Mapreduce 的核心,它分布在 Mapreduce 的 map 阶段和 reduce 阶段。一般 把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。1. Collect阶段 :将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区,保存的是 key/value,Partition 分区信息等。2. Spill...
2020-01-27 14:32:25 518
原创 MapReduce之Reduce详解
Reduce 大致分为 copy、sort、reduce 三个阶段,重点在前两个阶段。copy 阶段包含一 个 eventFetcher 来获取已完成的 map 列表,由 Fetcher 线程去 copy 数据,在此过程中 会启动两个 merge 线程,分别为 inMemoryMerger 和 onDiskMerger,分别将内存中的 数据 merge 到磁盘和将磁盘中的数据进行 me...
2020-01-27 14:30:48 1998
原创 MapReduce之mapTask阶段详解
整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给 map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集 器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有 一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时...
2020-01-27 14:28:28 534
原创 hadoop zookeeper常用命令
hadoop fs -cat /out/sort/part-r-00000 查看hadoop fs -ls -R / 递归查看目录zkServer.sh starthadoop jar mapreduce_wordcount-1.0-SNAPSHOT.jar cn.mapreduce_sort.JobMain mapreduce运行jar包hdfs...
2020-01-24 15:22:43 250
原创 MapReduce词频统计案例(hadoop3)
创建maven工程xml配置在maven选型了取消test,打包,上传集群,开始执行。package cn.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;impor...
2020-01-21 20:26:25 489
原创 hadoop3.1.1配置idea-maven的xml文件
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http:...
2020-01-21 20:19:01 946 1
原创 配置ssh免密连接
ssh-keygen -t rsascp /root/.ssh/id_rsa.pub root@node02:/root/.ssh/authorized_keys三个回车,scpscp /root/.ssh/id_rsa.pub root@node02:/root/.ssh/authorized_keys给node02分配私匙scp: illegal option ...
2020-01-20 19:43:30 199
原创 zokeeper-3.4.6安装配置
•1,zookeeper(配置)–conf/zoo.cfg•dataDir=/var/sxt/zk•server.1=node02:2888:3888•server.2=node03:2888:3888•server.3=node04:2888:3888•–/var/sxt/zk•echo 1 > myid //数字根据节点规划...
2020-01-20 19:37:59 166
原创 hadoop3.1.1-ha高可用搭建
hadoop HA 集群的搭建依赖于 zookeeper,所以选取三台当做 zookeeper 集群我总共准备了四台主机node01,node02,node03,node04。其中 node01 和 node02 做 namenode 的主备切换安装zookeeper集群 # 目录 usr/hadoop-3.1.1/etc/hadoopexp...
2020-01-19 16:55:42 258
原创 CentOS6 安装 下载jdk1.8 配置环境变量
linux jdk1.8 https://pan.baidu.com/s/1HIgv6v0qFgKQb1B3OVzNFQ 1l32解压tar -xzvf 文件名配置环境变量vi /etc/profile# 末行插入export JAVA_HOME=/usr/jdk1.8.0_11JRE_HOME=/usr/jdk1.8.0_11/jreexport CLAS...
2019-12-27 11:34:05 227
原创 hadoop3.1.1伪分布式部署 Centos6
hadoop3.1.1https://pan.baidu.com/s/1chjqOFWBE8sXQPIEEQujjg s982linux jdk1.8 https://pan.baidu.com/s/1HIgv6v0qFgKQb1B3OVzNFQ 1l32环境 Centos6解压安装hadooptar -xzvf 文件名配置环境变量这个目录下cd /h...
2019-12-27 11:25:35 180
原创 lvs负载均衡-部署实例
首先准备三台虚拟机,一台做负载调度器(load balancer),它是整个集群对外面的前端机,负责将客户的请求发送到一组服务器上执行,而客户认为服务是来自一个IP地址(我们可称之为虚拟IP地址)上的。两台做服务器,是真正执行客户请求的服务器。 三台虚拟机须在同一个网段,构建过程调度器 绑定一个虚拟地址,对外服务两种写法 /24 可写为 netmas...
2019-12-23 21:04:12 142
原创 第十届蓝桥杯参赛经验,省赛,国赛
首先交代一下,山西赛区c++b组,二本,大二参赛。成绩是省一等,国赛优胜奖。后面有比赛训练代码。 比赛是在,太原理工大明向校区,举办的。在大学城内,比赛当天是早上八点开始,比四个小时。当时比完赛我感觉挺累的,花费了好多精力。大概说一下我的准备经历,之前练题是在pat上练,乙级差不多做完了,有几道难得题还是不太会。 省赛是在三月底,开学就开始准备蓝桥杯的题,蓝桥的题,暴力搜索的多...
2019-10-30 11:26:51 2113
原创 tensorflow 学习之路 -1
前1个月接触tf,是一个老师组了队做互联网+比赛, 深度学习的机器视觉。用tf框架python实现,在学习中,把自己的一些心得体会分享出来。欢迎大家指正。神经网路搭建八股,正向传播,反向传播,梯度下降减小误差。训练参数,用来预测是否合格。#coding:utf-8 2 #0导入模块,生成模拟数据集 3 import tensorflow as tf 4 import numpy as ...
2018-05-15 16:01:38 132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人