20boy发愤图强想当功城狮-CSDN博客

原创 zookeeper 原理与配置(单机与分布式)

ZooKeeper 安装配置使用Zookeeper的概述：ZooKeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。ZooKeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，ZooKeeper就将负责通知已经在ZooKeeper上注册的那些观察者做出相应的反应。例如：一组服务器集群、一组客户端，全部通过ZooKeeper注册，如果一台服务节点宕机，则ZooK

2020-09-30 17:53:58 273 1

原创单机hadoop-Yarn部署

Yarn的部署: Hadoop2.0新增了Yarn，Yarn的引用主要有两个方面的改变: 1.增强了NameNode的水平扩展能力和高可用性。 2.MapReduce将Hadoop1.0中的JobTracker中的资源管理和任务生命周期管理拆分成两个独立的组件，资源管理对应ResourceManager，任务生命周期管理对应ApplicationMaster。部署Yarn：应官方要求单节点配置：你可以通过设置一些参数

2020-09-30 17:53:35 1000

原创 Hive原理与配置(伪分布式与分布式)

Hive原理与配置Hive概述：1.Hive是一个构建于Hadoop顶层的数据仓库工具，可以查询和管理PB级别的分布式数据。2.支持大规模数据存储、分析，具有良好的可扩展性某种程度上可以看作是用户编程接口，本身不存储和处理数据。3.依赖分布式文件系统HDFS存储数据。依赖分布式并行计算模型MapReduce处理数据。4.定义了简单的类似SQL 的查询语言——HiveQL。5.用户可以通过编写的HiveQL语句运行MapReduce任务。6. 可以很容易把原来构建在关系数据库上的数据仓库应

2020-09-30 17:52:48 1073

原创日志Flume采集工具安装与使用方法

Flume概述flume 简介1.flume是cloudera开发的后来贡献给了Apache的一套用分布式，高可靠的，高可用的海量分布式日志采集、聚合和传输的系统。2.flume 的版本更新缓慢但是稳定。

2020-09-30 17:52:23 319

原创 Sqoop 了解与安装

SqoopSqoop简介Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目

2020-09-30 17:51:30 198 1

原创 kafka的安装和简单实例

Kafka 安装部署Kafka介绍(摘自百度百科)Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过H

2020-09-30 17:50:59 138

原创 Spark安装和实践(Spark2.0)

SparkSpark简介Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集，具有以下特点。1.运行速度快：Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是Hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可

2020-09-30 17:50:31 709

原创 hadoop伪分布是详细部署

hadoop集群单机版配置 1.配置准备一台虚拟据(centos.7系统) 2.相关文件安装包(注:可以去清华大学开源软件里找到镜像文件并下载) 3.准备xftp与xshell 用于导入文件和编写命令软件。我调整了已经发表的hadoo的分布式文档和现在遇到的一些问题原因,简化了配置文件等。关闭防火墙 $ | sudo systemctl stop firewalld 临时关闭防火墙 $ | sudo systemctl disable firewalld 开机时禁止自动开启防火墙 $ |

2020-09-30 17:50:02 370

原创大数据hadoop配置 HIVE配置（三）

大数据hadoop配置 HIVE配置（三）准备mysql的数据库与驱动包在hadoop的基础上搭建(单机.伪分布式.分布式均可)什么是hiveHIVE简介hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将...

2020-03-25 12:35:26 618

原创大数据配置hadoop 全分布式（二）

大数据hadoop配置（二）搭建Hadoop的全分布模式准备3台虚拟机机器:master,slave1,slave2每台机器的准备工作:安装JDK、关闭防火墙、设置主机名…关闭防火墙sudo systemectl stop firewalld 临时关闭sudo systemectl disable firewalld 禁止防火墙自启reboot 重启虚拟机sudo system...

2020-03-24 11:13:48 127

原创大数据配置hadoop HA （一）

大数据配置hadoop（一）搭建Hadoop的高可用模式准备3台虚拟机:master,slave1,slave2了解什么是高可用什么的高可用HA(High Available), 高可用，是保证业务连续性的有效解决方案, 通常通过设置备用节点的方式实现;一般分为执行业务的称为活动节点(Active)，和作为活动节点的一个备份的备用节点(Standby), 当活动节点出现问题, 导致...

2020-03-23 10:38:49 270

原创 hadoop运行任务时一直卡在:INFO mapreduce.Job: Running job

hadoop运行任务时一直卡在:INFO mapreduce.Job: Running job1.这是我hadoop求pi 卡死问题，因为yarn的运行内存不足导致问题所在。解决方法：在yarn-site.xml中加了:<property> <name>yarn.nodemanager.resource.memory-mb</name> ...

2020-03-23 09:39:56 1836

原创 Ubantu18.04 部署Hive

Ubantu18.04 部署Hive一.什么是HiveHive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapR...

2019-12-11 19:16:19 210

原创 Wedmagic 网络爬虫

Wedmagic 网络爬虫网页链接:http://webmagic.io/docs/zh/上面是链接让你知道Wedmagic是什么。你还知道http协议和xpath是什么，怎么用，里面有小案例，可以试一试。http协议http是一个简单的请求-响应协议，它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII码形式给出；而消息...

2019-11-30 18:55:16 233

原创 Hadoop 实验：分布式缓存

Hadoop 实验：分布式缓存一．概述假定现在有100G的大表和1M的小表，如果是储存在一个盘里，处理和运行就会很慢，假定把100G分别分到10个map，这样1个map就是总量的1/10，加快了处理。用小表中单词在大表中出现次数，也即所谓的“扫描大表，加载小表”。也即分布时缓存。如图:由于这次实验没有100G这么大的表也没有1m的小表只能自己设置一个小表和大表。整个实验步骤为:1....

2019-11-27 17:21:59 304

原创 Hadoop 实验：Join 操作

Hadoop 实验：Join 操作一．实验背景：1.概述我们这次学习是在hadoop中使用MapRedce进行Join的操作时同时耗时，但是由于hadoop的分布式设计理念的特殊性，因此对于join的操作也同样具备一定的特殊性。2. 原理使用 MapReduce 实现 Join 操作有多种实现方式：在 Reduce 端连接为最为常见的模式：Map 端的主要工作：为来自不同表(文...

2019-11-27 10:42:49 274 1

原创 Hadoop 实验：二次排序

一．实验原理MR默认会对键进行排序，然后有的时候我们也有对值进行排序的需要，如果有内存溢出的问题，就用二次排序来进行对值的排序MR计算过程中，而不是单独来做。二次排序就是首先按照第一次字段排序，然后对第一字段相同的行按照第二字段排序，注意不能破坏第一次排序结果。二．实验需要本实验所需外部 jar 文件都可以在实验集群的/home/hadoop/lib.zip 文件中找到，请自行下载。1....

2019-11-26 20:35:45 386

原创 Hadoop 实验：计数器

1.MapReduce 计数器是什么？是用于记录job的执行进度和状态的。可以认为是笔记本,记录这数据变化。2.MapReduce计数器能做什么？计数器给我们提供一个数据窗口，展示各种细节数据。对MapRed性能优化的评价都计数器表现出来。计数器是一种收集作业统计信息的有效手段。用于统计质量控制或应用级统计。还可以判断系统出现的问题错误。计数器好比一个日记本，你每天记录一点，有一天返回来看...

2019-11-26 16:40:36 393 4

原创读写 HDFS 文件

在hadoop hdfs上传下载文件什么是hdfsHDFS（Hadoop Distributed File System）为大数据平台其它所有组件提供了基本的存储功能。它具有高容错、高可靠、可扩展、高吞吐率等特征，为大数据存储和处理提供了强大的底层存储架构。 HDFS 是一个主/从（master/slave）体系结构，从最终用户的角度来看，它就像传统的文件系统，可通过目录路径对文件执行 ...

2019-11-23 16:29:45 228

原创 Ubantu18.04 安装hadoop(伪分布和单机)求pi

Ubantu18.04安装hadoop(伪分布和单机)首先是安装Ubantu18.04 （安装Ubantu，百度一个就知道了）配置root用户密码 sudo passwd然后用的root 登录1.首先是安装VM tools2.然后是更新源 (这个在我的ssh服务那章博客里有)3.关闭防火墙状态在Ubuntu中我们使用sudo ufw status命令查看当前防火墙状态;in...

2019-11-21 19:22:51 342

原创关于jps异常报错查询不了进程

关于jps异常报错查询不了进程的解决方法我的错误是开启hadoop服务后 jps异常错误没有命令我的解决方法是1.先查看你的java 是不是能查出版本号 java - version如果查出不出来就开去看下的你Java的PATH路径是不是正常的了。2.然后在重新执行一遍 source /etc/profile3.开启hadoop的服务 sbi...

2019-11-20 09:14:57 216

原创 Ubantu18.04安装SSH服务

Ubantu18.04安装SSH服务一.安装openssh-service这里有两个路径可以下载命令： sudo apt-get install opessh-server su root apt-get instal openssh-server注：因为安装这些服务等需要你的超级管理员root 第二种是让你明白是什么.(详细说明了这个步骤)启动SSH...

2019-11-15 19:00:14 272

原创 Ubantu18.04下安装java8

安装JDK：首先坚持是否已经安装 java -version如果没安装，提示：官网地址： https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html (我下载的jdk1.8.0_231)这里选择的是：jdk-8u231-linux-x64.tar.gz这里我是从我的wi...

2019-11-12 16:01:23 130

原创 jdbc链接mysql数据库

java 链接Mysql的方法使用（jdbc链接） import java.sql.*; public class Mysql {// MySQL 8.0 以上版本 - JDBC 驱动名及数据库 URLstatic final String JDBC_DRIVER = "com.mysql.cj.jdbc.Driver";static final String DB_URL = "...

2019-11-09 18:32:05 61

原创用java实现银行管理系统效果

银行管理系统 (java实现)1.创建一个封装类（Studentss）import javax.naming.Name;import javax.naming.NamingEnumeration; public class Studentss {//无参public Studentss(){}//有参public Studentss(String name,String...

2019-11-08 11:32:30 577 1

原创 java环境配置

JAVA环境配置首先到官方下载jdkhttp://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html我下载的jdk1.8.25的版本下载的时候选择你电脑的相对系统是64位就选64位是32位就行32位一个jre文件在JDK的外部，一个jre文件在JDK内部，这就是所谓的专用JRE和公...

2019-11-08 11:05:39 96

原创 - 电脑说话

CreateObject (“SAPI.SpVoice”).speak"号嗨欧，干倔忍森亿经刀打了高草，号嗨欧，干倔忍森亿经刀打了颠峰，号诊韩，号朵牧，号悬才，啊，那购滴j仔砍哦"

2018-12-06 20:21:00 419

qq_43388040的博客