自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Flume-采集目录到HDFS

需求 某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去思路 根据需求,首先定义以下3大要素1. 数据源组件,即source ——监控文件目录 : spooldir 1. 监视一个目录,只要目录中出现新文件,就会采集文件中的内容 2. 采集完成的文件,会被agent自动添加一个后缀:COMPLETED...

2020-01-29 12:36:32 925

原创 MapReduce之shuffle详解

shuffle 是 Mapreduce 的核心,它分布在 Mapreduce 的 map 阶段和 reduce 阶段。一般 把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。1. Collect阶段 :将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区,保存的是 key/value,Partition 分区信息等。2. Spill...

2020-01-27 14:32:25 495

原创 MapReduce之Reduce详解

Reduce 大致分为 copy、sort、reduce 三个阶段,重点在前两个阶段。copy 阶段包含一 个 eventFetcher 来获取已完成的 map 列表,由 Fetcher 线程去 copy 数据,在此过程中 会启动两个 merge 线程,分别为 inMemoryMerger 和 onDiskMerger,分别将内存中的 数据 merge 到磁盘和将磁盘中的数据进行 me...

2020-01-27 14:30:48 1955

原创 MapReduce之mapTask阶段详解

整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给 map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集 器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有 一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时...

2020-01-27 14:28:28 503

原创 hadoop zookeeper常用命令

hadoop fs -cat /out/sort/part-r-00000 查看hadoop fs -ls -R / 递归查看目录zkServer.sh starthadoop jar mapreduce_wordcount-1.0-SNAPSHOT.jar cn.mapreduce_sort.JobMain mapreduce运行jar包hdfs...

2020-01-24 15:22:43 223

原创 MapReduce词频统计案例(hadoop3)

创建maven工程xml配置在maven选型了取消test,打包,上传集群,开始执行。package cn.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;impor...

2020-01-21 20:26:25 447

原创 hadoop3.1.1配置idea-maven的xml文件

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http:...

2020-01-21 20:19:01 896 1

原创 配置ssh免密连接

ssh-keygen -t rsascp /root/.ssh/id_rsa.pub root@node02:/root/.ssh/authorized_keys三个回车,scpscp /root/.ssh/id_rsa.pub root@node02:/root/.ssh/authorized_keys给node02分配私匙scp: illegal option ...

2020-01-20 19:43:30 156

原创 zokeeper-3.4.6安装配置

•1,zookeeper(配置)–conf/zoo.cfg•dataDir=/var/sxt/zk•server.1=node02:2888:3888•server.2=node03:2888:3888•server.3=node04:2888:3888•–/var/sxt/zk•echo 1 > myid //数字根据节点规划...

2020-01-20 19:37:59 126

原创 hadoop3.1.1-ha高可用搭建

hadoop HA 集群的搭建依赖于 zookeeper,所以选取三台当做 zookeeper 集群我总共准备了四台主机node01,node02,node03,node04。其中 node01 和 node02 做 namenode 的主备切换安装zookeeper集群 # 目录 usr/hadoop-3.1.1/etc/hadoopexp...

2020-01-19 16:55:42 217

原创 CentOS6 安装 下载jdk1.8 配置环境变量

linux jdk1.8 https://pan.baidu.com/s/1HIgv6v0qFgKQb1B3OVzNFQ 1l32解压tar -xzvf 文件名配置环境变量vi /etc/profile# 末行插入export JAVA_HOME=/usr/jdk1.8.0_11JRE_HOME=/usr/jdk1.8.0_11/jreexport CLAS...

2019-12-27 11:34:05 207

原创 解决linux本地浏览器不能访问

在终端内输入以下两条命令 iptables -F iptables -P INPUT ACCEPT

2019-12-27 11:27:06 1747 1

原创 hadoop3.1.1伪分布式部署 Centos6

hadoop3.1.1https://pan.baidu.com/s/1chjqOFWBE8sXQPIEEQujjg s982linux jdk1.8 https://pan.baidu.com/s/1HIgv6v0qFgKQb1B3OVzNFQ 1l32环境 Centos6解压安装hadooptar -xzvf 文件名配置环境变量这个目录下cd /h...

2019-12-27 11:25:35 159

原创 lvs负载均衡-部署实例

首先准备三台虚拟机,一台做负载调度器(load balancer),它是整个集群对外面的前端机,负责将客户的请求发送到一组服务器上执行,而客户认为服务是来自一个IP地址(我们可称之为虚拟IP地址)上的。两台做服务器,是真正执行客户请求的服务器。 三台虚拟机须在同一个网段,构建过程调度器 绑定一个虚拟地址,对外服务两种写法 /24 可写为 netmas...

2019-12-23 21:04:12 122

原创 第十届蓝桥杯参赛经验,省赛,国赛

首先交代一下,山西赛区c++b组,二本,大二参赛。成绩是省一等,国赛优胜奖。后面有比赛训练代码。 比赛是在,太原理工大明向校区,举办的。在大学城内,比赛当天是早上八点开始,比四个小时。当时比完赛我感觉挺累的,花费了好多精力。大概说一下我的准备经历,之前练题是在pat上练,乙级差不多做完了,有几道难得题还是不太会。 省赛是在三月底,开学就开始准备蓝桥杯的题,蓝桥的题,暴力搜索的多...

2019-10-30 11:26:51 2052

原创 蓝桥杯练习代码

蓝桥杯省赛精选

2019-10-25 17:09:36 304

原创 PAT乙级解题代码

这是我去年写的代码,搬到了GitHub上,和大家交流学习。欢迎评论,欢迎点星。pat乙级

2019-10-25 17:05:50 145

原创 tensorflow 学习之路 -1

前1个月接触tf,是一个老师组了队做互联网+比赛, 深度学习的机器视觉。用tf框架python实现,在学习中,把自己的一些心得体会分享出来。欢迎大家指正。神经网路搭建八股,正向传播,反向传播,梯度下降减小误差。训练参数,用来预测是否合格。#coding:utf-8 2 #0导入模块,生成模拟数据集 3 import tensorflow as tf 4 import numpy as ...

2018-05-15 16:01:38 114

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除