浮躁-lh-CSDN博客

原创 Flume-采集目录到HDFS

需求某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去思路根据需求，首先定义以下3大要素1. 数据源组件，即source ——监控文件目录 : spooldir 1. 监视一个目录，只要目录中出现新文件，就会采集文件中的内容 2. 采集完成的文件，会被agent自动添加一个后缀：COMPLETED...

2020-01-29 12:36:32 996

原创 MapReduce之shuffle详解

shuffle 是 Mapreduce 的核心，它分布在 Mapreduce 的 map 阶段和 reduce 阶段。一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。1. Collect阶段：将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区，保存的是 key/value，Partition 分区信息等。2. Spill...

2020-01-27 14:32:25 518

原创 MapReduce之Reduce详解

Reduce 大致分为 copy、sort、reduce 三个阶段，重点在前两个阶段。copy 阶段包含一个 eventFetcher 来获取已完成的 map 列表，由 Fetcher 线程去 copy 数据，在此过程中会启动两个 merge 线程，分别为 inMemoryMerger 和 onDiskMerger，分别将内存中的数据 merge 到磁盘和将磁盘中的数据进行 me...

2020-01-27 14:30:48 1998

原创 MapReduce之mapTask阶段详解

整个Map阶段流程大体如上图所示。简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给 map（用户自己实现的）进行处理，数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区（默认使用hash分区），然后写入buffer，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时...

2020-01-27 14:28:28 534

原创 hadoop zookeeper常用命令

hadoop fs -cat /out/sort/part-r-00000 查看hadoop fs -ls -R / 递归查看目录zkServer.sh starthadoop jar mapreduce_wordcount-1.0-SNAPSHOT.jar cn.mapreduce_sort.JobMain mapreduce运行jar包hdfs...

2020-01-24 15:22:43 250

原创 MapReduce词频统计案例（hadoop3）

创建maven工程xml配置在maven选型了取消test，打包，上传集群，开始执行。package cn.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;impor...

2020-01-21 20:26:25 489

原创 hadoop3.1.1配置idea-maven的xml文件

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http:...

2020-01-21 20:19:01 946 1

原创配置ssh免密连接

ssh-keygen -t rsascp /root/.ssh/id_rsa.pub root@node02:/root/.ssh/authorized_keys三个回车，scpscp /root/.ssh/id_rsa.pub root@node02:/root/.ssh/authorized_keys给node02分配私匙scp: illegal option ...

2020-01-20 19:43:30 199

原创 zokeeper-3.4.6安装配置

•1,zookeeper(配置)–conf/zoo.cfg•dataDir=/var/sxt/zk•server.1=node02:2888:3888•server.2=node03:2888:3888•server.3=node04:2888:3888•–/var/sxt/zk•echo 1 > myid //数字根据节点规划...

2020-01-20 19:37:59 166

原创 hadoop3.1.1-ha高可用搭建

hadoop HA 集群的搭建依赖于 zookeeper，所以选取三台当做 zookeeper 集群我总共准备了四台主机node01，node02，node03，node04。其中 node01 和 node02 做 namenode 的主备切换安装zookeeper集群 # 目录 usr/hadoop-3.1.1/etc/hadoopexp...

2020-01-19 16:55:42 258

原创 CentOS6 安装下载jdk1.8 配置环境变量

linux jdk1.8 https://pan.baidu.com/s/1HIgv6v0qFgKQb1B3OVzNFQ 1l32解压tar -xzvf 文件名配置环境变量vi /etc/profile# 末行插入export JAVA_HOME=/usr/jdk1.8.0_11JRE_HOME=/usr/jdk1.8.0_11/jreexport CLAS...

2019-12-27 11:34:05 227

原创解决linux本地浏览器不能访问

在终端内输入以下两条命令 iptables -F iptables -P INPUT ACCEPT

2019-12-27 11:27:06 1829 1

原创 hadoop3.1.1伪分布式部署 Centos6

hadoop3.1.1https://pan.baidu.com/s/1chjqOFWBE8sXQPIEEQujjg s982linux jdk1.8 https://pan.baidu.com/s/1HIgv6v0qFgKQb1B3OVzNFQ 1l32环境 Centos6解压安装hadooptar -xzvf 文件名配置环境变量这个目录下cd /h...

2019-12-27 11:25:35 180

原创 lvs负载均衡-部署实例

首先准备三台虚拟机，一台做负载调度器（load balancer），它是整个集群对外面的前端机，负责将客户的请求发送到一组服务器上执行，而客户认为服务是来自一个IP地址（我们可称之为虚拟IP地址）上的。两台做服务器，是真正执行客户请求的服务器。三台虚拟机须在同一个网段，构建过程调度器绑定一个虚拟地址，对外服务两种写法 /24 可写为 netmas...

2019-12-23 21:04:12 142

原创第十届蓝桥杯参赛经验，省赛，国赛

首先交代一下，山西赛区c++b组，二本，大二参赛。成绩是省一等，国赛优胜奖。后面有比赛训练代码。比赛是在，太原理工大明向校区，举办的。在大学城内，比赛当天是早上八点开始，比四个小时。当时比完赛我感觉挺累的，花费了好多精力。大概说一下我的准备经历，之前练题是在pat上练，乙级差不多做完了，有几道难得题还是不太会。省赛是在三月底，开学就开始准备蓝桥杯的题，蓝桥的题，暴力搜索的多...

2019-10-30 11:26:51 2113

原创蓝桥杯练习代码

蓝桥杯省赛精选

2019-10-25 17:09:36 329

原创 PAT乙级解题代码

这是我去年写的代码，搬到了GitHub上，和大家交流学习。欢迎评论，欢迎点星。pat乙级

2019-10-25 17:05:50 179

原创 tensorflow 学习之路 -1

前1个月接触tf，是一个老师组了队做互联网+比赛，深度学习的机器视觉。用tf框架python实现，在学习中，把自己的一些心得体会分享出来。欢迎大家指正。神经网路搭建八股，正向传播，反向传播，梯度下降减小误差。训练参数，用来预测是否合格。#coding:utf-8 2 #0导入模块，生成模拟数据集 3 import tensorflow as tf 4 import numpy as ...

2018-05-15 16:01:38 132

qq_42214376的博客