Hadoop
普通Gopher
大数据非入门者,云计算菜鸡
网络安全混子,机器学习渣渣
开发不会,运维太累
展开
-
Windows10安装运行Kafka2.1.0与Zookeeper3.4.14
近日在做一个Golang的日志收集系统需要用到Kafka, 因苦于笔记本电脑虚拟机出了点问题, 所以在本文记录Windows10安装Kafka的过程搭建过程1.1 安装JDK此处不多介绍1.2 安装Zookeeper下载地址:http://zookeeper.apache.org/releases.html#download下载后解压到一个目录:1.进入Zookeeper设置目录,...原创 2020-03-16 14:37:59 · 885 阅读 · 3 评论 -
Centos7搭建Hadoop3.1.3完全分布模式
详细搭建可以参考我的Hadoop2.8.0安装准备本文下载的是3.1.3版本的Hadoop关闭防火墙systemctl stop firewalldsetenforce 0虚拟机的准备安装3个虚拟机并实现ssh免密码的登录安装3个centos7虚拟机安装3个机器,机器分别叫master slave1 slave2在/etc/hostname下修改主机名其他两台也是...原创 2019-12-16 18:28:05 · 1987 阅读 · 0 评论 -
SparkSQL,加载文件,处理文件,存储文件
简介Spark SQL重要的是操作DataFrame,DataFrame本身提供了Save和Load的操作,Load:可以创建DataFrame。Save:把DataFrame中的数据保存到文件或者说用具体的格式来指明我们要读取的文件类型,以及用具体的格式来指出我们要输出的文件是什么类型。Spark SQL执行基本操作时,内部结构流程图如下:DataFrame本质是数据 + 数据的描述...原创 2019-11-29 10:43:49 · 672 阅读 · 0 评论 -
SparkSQL,创建表,查询数据
简介Spark SQL的前身是Shark,Shark是伯克利实验室Spark生态环境的组件之一,它能运行在Spark引擎上,从而使得SQL查询的速度得到10-100倍的提升,但是,随着Spark的发展,由于Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,...原创 2019-11-29 10:36:55 · 10884 阅读 · 0 评论 -
Spark Shell操作
Spark 简介Spark shell是一个特别适合快速开发Spark程序的工具。即使你对Scala不熟悉,仍然可以使用这个工具快速应用Scala操作Spark。Spark shell使得用户可以和Spark集群交互,提交查询,这便于调试,也便于初学者使用Spark。Spark shell是非常方便的,因为它很大程度上基于Scala REPL(Scala交互式shell,即Scala解释器)...原创 2019-11-27 18:54:58 · 1368 阅读 · 0 评论 -
HBase Shell基本操作
相关知识HBase Shell基本操作命令如表所示:环境准备开启hadoop相关进程开启hbase相关进程输入hbase shell进入shell环境hbase shell基本命令使用version命令查看版本信息version使用status命令查看服务器状态status使用whoami命令可查看当前用户whoami使用list命令来查看一下都有哪些表list我...原创 2019-11-05 13:20:38 · 387 阅读 · 0 评论 -
基于Hbase的MapReduce查看表数据
实验环境Hadoop2.8.0Hbase-1.4.9Centos7.2pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema...原创 2019-11-05 13:00:20 · 340 阅读 · 0 评论 -
Hbase Java API接口
实验环境Hadoop2.8.0Hbase-1.4.9Centos7.2Java代码package pers.haohan.bigdata.hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client....原创 2019-11-05 12:55:34 · 257 阅读 · 0 评论 -
Hive Java API接口
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h...原创 2019-11-05 12:25:24 · 910 阅读 · 0 评论 -
Hive基本命令操作
基本介绍Hive定义了一套自己的SQL,简称HQL,它与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。DDL操作(数据定义语言)包括:Create、Alter、Show、Drop等。(1)create database- 创建新数据库(2)alter database - 修改数据库(3)drop database - 删除数...原创 2019-11-05 12:17:29 · 1032 阅读 · 0 评论 -
hbase shell报错:zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 4 attempts
2019-11-04 16:03:02,954 ERROR [main] zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 4 attempts2019-11-04 16:03:02,956 WARN [main] zookeeper.ZKUtil: hconnection-0x7412ed6b0x0, quorum=n...原创 2019-11-04 16:07:56 · 3578 阅读 · 0 评论 -
Hive报错:javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database.
Starting Hive Metastore ServerSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/hive/apache-hive-2.1.1-bin/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/Sta...原创 2019-10-23 21:16:31 · 2211 阅读 · 0 评论 -
Hive启动报错 Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083
Exception in thread "main" org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083. at org.apache.thrift.transport.TServerSocket.<init>(TS...原创 2019-10-22 20:29:29 · 1936 阅读 · 1 评论 -
大数据环境准备-搭建数据仓库
环境准备1.首先修改hosts文件,以自己实验ip为准。(master中进行)vim /etc/hosts然后直接将hosts文件复制到从节点中scp /etc/hosts root@slave1:/etc/hostsscp /etc/hosts root@slave2:/etc/hosts2.开启zookeeper(三台机器)进入zooke...原创 2019-10-13 15:31:03 · 393 阅读 · 0 评论 -
大数据基础环境搭建
实验环境:Centos7 Xshell安装包版本:hadoop-2.7.3.tar.gzapache-hive-2.1.1-bin.tarhbase-1.2.4-bin.tar.gzjdk-8u171-linux-x64.tar.gzmysql-connector-java-5.1.47-bin.jarscala-2.11.12.tgzspark-2.4.0-bin-had...原创 2019-10-13 15:05:50 · 774 阅读 · 0 评论 -
Centos7配置时间同步
时间同步1.时区一致。要保证设置主机时间准确,每台机器时区必须一致。实验中我们需要同步网络时间,因此要首先选择一样的时区。先确保时区一样,否则同步以后时间也是有时区差。可以使用date查看自己的机器时间2.选择时区:tzselect由于hadoop集群对时间要求很高,所以集群内主机要经常同步。我们使用ntp进行时间同步,master作为ntp服务器,其余的当做ntp客户端。下载ntp...原创 2019-10-12 15:48:55 · 390 阅读 · 0 评论 -
基于PySpark的电影推荐引擎
相关知识推荐引擎是最常见的机器学习应用,我们可以在各大购物网站上看见这方面的应用。Spark MLlib支持ALS(Alternating Least Squares)推荐算法,是机器学习的协同过滤推荐算法。机器学习的协同过滤推荐算法通过观察所有用户给产品的评价来推断每个用户的喜好,并向每个用户分别推荐多个合适的产品,也可以把某个产品推荐给多个用户。系统环境Linux Centos7P...原创 2019-10-09 19:44:48 · 2046 阅读 · 0 评论 -
使用PySpark对招聘信息数据进行分析
使用PySpark对智联数据进行分析Spark数据处理方式主要有三种:RDD、DataFrame、Spark SQL三者的主要差异在于是否定义SchemaRDD的数据未定义Schema(也就是未定义字段名及数据类型)。使用上必须有Map/Reduce的概念,需要高级别的程序设计能力。但是功能也最强,能完成所有Spark功能。Spark DataFrame建立时必须定义Schema(...原创 2019-10-09 12:14:32 · 2006 阅读 · 0 评论 -
分布式消息系统Kafka
分布式消息系统KafkaKafka可以处理消费者规模的网站中的所有动作流数据。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息kafka是一个分布式的、可分区的、可复制的消息系统;kafka是由LinkedIn开发,使用Scala编写;支持水平拓展和高吞吐...原创 2019-09-18 21:14:51 · 123 阅读 · 0 评论 -
ZooKeeper学习笔记
一 什么是 ZooKeeperZooKeeper 的由来Zookeeper最早起源于雅虎研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型系统基本都需要依赖一个类似的系统来进行分布式协调,但是这些系统往往都存在分布式单点问题。所以,雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架,以便让开发人员将精力集中在处理业务逻辑上。关于“ZooKeeper”这个项目的名字,其实...原创 2019-09-18 21:10:19 · 127 阅读 · 0 评论 -
Scala2.12.8的安装
准备安装首先在官网下载好scala以后,安装在hadoop目录下cd /opt/hadooptar -zxvf scala-2.12.8.tgz进入环境变量vim /etc/profile#scalaexport SCALA_HOME=/opt/hadoop/scala-2.12.8export PATH=$PATH:$SCALA_HOME/binsourc...原创 2019-08-26 14:31:23 · 421 阅读 · 0 评论 -
Hadoop2-8-0的环境搭建
此文为在centos7下安装Hadoop集群前期准备Hadoop下载Hadoop的下载本文下载的是2.8.0版本的Hadoop安装3个虚拟机并实现ssh免密码的登录安装3个centos7虚拟机安装方法:安装3个机器,机器分别叫master slave1 slave2如图:ps:为了免去后面一系列授权的麻烦,这里直接使用root账户登录和操...原创 2019-08-26 14:31:43 · 1053 阅读 · 1 评论 -
初识Spark
Spark简介Spark是什么Spark是一个快读且通用的集群计算平台Spark的特点Spark应用程序可以使用R语言、Java、Scala和Python进行编写,极少使用R语言编写Spark程序,Java和Scala语言编写的Spark程序的执行效率是相同的,但Java语言写的代码量多,Scala简洁优雅,但可读性不如Java,Python语言编写的Spark程序的执行效率不如J...原创 2019-08-26 14:31:09 · 248 阅读 · 0 评论 -
基于Hadoop平台使用MapReduce统计某银行信用卡违约用户数量
统计某银行信用卡违约用户数量csv下载地址违约规则:AY_1~PAY_6:PAY_1为2005年9月的还款情况;PAY_2为2005年8月的还款情况;…;PAY_6为2005年4月的还款情况。BILL_AMT1~BILL_AMT6和PAY_AMT1~PAY_AMT6中数字标识的含义也是如此。PAY_1~PAY_6的取值含义为:0 = 及时还;1 = 还款延迟一个月;2 = 还款延迟两个月;3...原创 2019-09-06 21:56:03 · 587 阅读 · 0 评论 -
JobTracker和TaskTracker详述
概述Hadoop MapReduce采用Master/Slave结构。Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。JobTracker剖析概述:JobTracker是一个后台服务进程,启动之后,会一...原创 2019-09-06 21:57:04 · 1048 阅读 · 0 评论 -
HDFS文件接口
命令基本格式:hadoop fs -cmd < args >lshadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件puthadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在...原创 2019-09-06 21:57:50 · 437 阅读 · 0 评论 -
win10下用IDEA+Hadoop运行时的环境搭建
构建win10下用IDEA运行Hadoop程序本地解压hadoop安装包:如图2.将hadoop添加到环境变量中在Path变量中添加[外链图片转存失败(img-1NtPRFvX-1567778520881)(image007.png)]下载winutils工具,将bin目录覆盖到解压的hadoop安装包中3.在IDEA中构建新项目:注意:IDEA必须下载专业版打开之后:...原创 2019-09-06 22:05:27 · 1886 阅读 · 0 评论 -
Spark 2.4.2的环境搭建
依赖环境:ScalaSpark是使用Scala编写的,用Scala编写Spark任务可以像操作本地集合对象一样操作分布式数据集RDD安装的过程可以参考我的这篇文章Scala安装安装完scala可以查看版本scala -version这里重点介绍Spark的安装,相比于hadoop的安装要简单一些,而且步骤类似,话不多说,开始!Spark的安装解压tar -zxvf /spark...原创 2019-09-18 15:53:27 · 365 阅读 · 0 评论 -
Hive2.3.0安装笔记
前期准备完成hadoop的安装完成mysql的安装下载Hivewget http://mirror.bit.edu.cn/apache/hive/hive-2.3.0/apache-hive-2.3.0-bin.tar.gz或者去官网安装解压到指定安装目录用xftp将安装包传到opt/hadoop中解压:tar -zxvf apache-hive-2.3.0-bin.tar.gz...原创 2019-09-18 18:49:58 · 299 阅读 · 0 评论 -
Hive报错记录
创建表的时候报错,重新复制了一下操作成功使用load函数传数据的时候报错问题出在用户夹错误修改配置文件 hive-site,xml <name>hive.metastore.warehouse.dir</name>#hive元数据存放目录,hdfs <value>/usr/hive/warehouse</value> <na...原创 2019-09-18 18:57:32 · 296 阅读 · 0 评论 -
Hive beeline Hiveserver2
HiveServer2HiveServer 2(HS2)是一种服务,使客户端能够对Hive执行查询。HiveServer 2是HiveServer 1的继承者,HiveServer 1已被废弃。HS2支持多客户端并发和身份验证。它的设计是为了更好地支持开放API客户机,如JDBC和ODBC。HS2是一个作为复合服务运行的单个进程,它包括基于Thwift的Hive服务(TCP或HTTP)和用于We...原创 2019-09-18 19:54:32 · 299 阅读 · 0 评论 -
Hive学习笔记
Hive内部是什么Hive二进制分支版本核心包含3个部分。主要部分是Java代码本身。在$HIVE_HOME/lib 目录下发现有众多的jar包文件。所有的Hive客户端都需要一个metastoreservice(元数据服务),Hive使用这个服务来存储表模式信息和其他元数据信息。通常情况下会使用一个关系型数据库中的表来存储这些信息。默认情况下,Hive会使用内置的Derby sql服务器, ...原创 2019-09-18 20:04:14 · 279 阅读 · 0 评论 -
Flume传输数据给Kafka
FlumeFlume是一个海量日志采集、聚合和传输的日志收集系统。Kafka是一个可持久化的分布式的消息队列。由于采集和处理数据的速度不一定同步,所以使用Kafka这个消息中间件来缓冲,如果你收集了日志后,想输出到多个业务方也可结合Kafka,Kafka支持多个业务来读取数据。上图中Kafka生产的数据,是由Flume提供的,这里我们需要用到Flume集群,通过Flume集群将Agent的...原创 2019-09-18 20:20:21 · 2070 阅读 · 0 评论 -
Flume多source,多sink组合框架搭建
Flume多source,多sink组合框架搭建Flume运行的核心是Agent。它是一个完整的数据收集工具,含有三个核心组件,分别是Source、Channel、Sink。通过这些组件,Event可以从一个地方流向另一个地方。Source可以接收外部源发送过来的数据。不同的Source可以接受不同的数据格式。Channel是一个存储地,接收Source的输出,直到有Sink消费掉Chann...原创 2019-09-18 20:22:06 · 1367 阅读 · 0 评论 -
Flume学习笔记
为什么用Flume:可靠性:Flume是Cloudera公司的一款高性能、高可用的分布式日志收集系统。Flume的核心是把数据从数据源收集过来再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,再删除缓存的数据。Flume传输数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。Flume运行的核心是Agent。它是...原创 2019-09-18 20:27:33 · 180 阅读 · 0 评论 -
Sqoop学习笔记
数据转移工具SqoopSqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Apache框架Hadoop是一个越来越通用的分布式计算环境,主要用来处理大...原创 2019-09-18 20:33:19 · 277 阅读 · 0 评论 -
Zookeeper环境搭建
zookeeper集群安装在master,slave1,slave2上安装hadoop用户进入mastercd /opt/hadoop/tar -zxvf zookeeper-3.4.8.tar.gzvim /etc/profile #zookeeper export ZOOKEEPER_HOME=/opt/hadoop/zookeeper-3.4.8 expor...原创 2019-09-18 20:39:42 · 146 阅读 · 0 评论 -
Centos7下的JDK1.8.0_201安装(超详细)
卸载系统自带OpenJDK以及相关的java文件查看系统自带jdk版本信息java -version查看当前系统自带的open jdk版本信息查找要删除的jdk文件输入rpm -qa | grep java查看包含java字符串的文件,其中删除类似下面这四个文件(不一定是四个)java-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86...原创 2019-08-26 14:31:21 · 934 阅读 · 0 评论