MKing1994-CSDN博客

原创 Hadoop-HDFS的伪分布式和完全分布式集群搭建

Hadoop-HDFSHDFS伪分布式集群搭建步骤一、配置免密登录ssh-keygen -t rsa一句话回车到底ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01跟随提示进行，一般需要yes确认之后输入一次密码就成功了二、上传jdk和hadoop压缩包可以使用ftp或者使用命令rzyum install lrzsz -y三、解压jd...

2019-06-12 20:15:34 3146 1

大数据简单来说就是短时间快速的产生大量的多种多样的有价值的数据，但是这些数据的价值密度不是很高。进入2012年，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面，进入美国白宫官网的新闻，现身在国内一些互联网主题的讲座沙龙中，甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等...

2019-06-10 15:15:37 5062

原创 Kafka收不到消息(本人遇到的情况)

报错如下19/09/10 09:02:40 WARN ClientUtils$: Fetching topic metadata with correlation id 0 for topics [Set(nb6)] from broker [id:0,host:node01,port:9092] failedjava.nio.channels.ClosedChannelExceptiona...

2019-09-10 09:13:29 5243

原创智慧交通车辆管理实现车辆出现的时间段和卡口

package com.hpe.traffic.skynetimport java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.sql...

2019-07-24 09:20:07 851

原创 spark集群上提交hivecontext任务报拒绝连接的错误

错误如下：Caused by: java.sql.SQLException: Unable to open a test connection to the given database. JDBC url = jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true, username = root. Terminating ...

2019-07-23 08:11:36 1205 2

原创 Spark Streaming整合flume和kafka实战

Spark Streaming整合flume实战flume作为日志实时采集的框架，可以与SparkStreaming实时处理框进行对接，flume实时产生数据，sparkStreaming做实时处理。Spark Streaming对接FlumeNG有两种方式，一种是FlumeNG将消息Push推给Spark Streaming，还有一种是Spark Streaming从flume 中Poll拉...

2019-07-19 08:45:33 513

原创 Scala的高级特性

Scala高级特性高阶函数1.1. 概念Scala混合了面向对象和函数式的特性，我们通常将可以作为参数传递到方法中的表达式叫做函数。在函数式编程语言中，函数是“头等公民”，把函数最为参数或者是返回值是函数的函数叫高阶函数高阶函数包含：作为值的函数、匿名函数、闭包、柯里化等等。1.2. 作为值的函数可以像任何其他数据类型一样被传递和操作的函数，每当你想要给算法传入具体动作时这个特性...

2019-07-09 20:41:02 329

原创 Scala中的面向对象

1. 类、方法、对象、继承、特质Scala的类与Java、C++的类比起来更简洁，学完之后你会更爱Scala！！！1.1. 类1.1.1. 类的定义package cn.bw.class_demo/**在Scala中，类并不用声明为public类型的。Scala源文件中可以包含多个类，所有这些类都具有共有可见性。*/class Person {//用val修饰的变量是可...

2019-07-09 20:39:32 329

原创浅谈Scala语言中的类型转换，控制语句和元组数组集合

由于Scala语言是给予Java的，所以Scala的类型转换是和Java是一样的机制。那么控制语句和Java也是大同小异的，基本思想还是相同的，只不过Scala的写法极其简单，比如它可以把一个嵌套循环带着方法体写到一行代码里，而且还带着判断语句。Scala语言中存放数据的容器除了数组和集合这些，和Java有一点不同的是，Scala有一种存储数据的容器，它叫元组，他是不可变的，有序的，不过下标是...

2019-07-08 08:17:07 380

原创三分钟让你了解scala

首先在Idea中配置scala开发环境温馨提示:最好是用事先准备好的scala插件和scalaSDK，不要在Idea开发工具里下载,因为如果你的网不好的话，会下载的很慢Ctrl+Alt+s打开设置，搜索plugins按图中提示选择选择你的scala插件目录然后新建项目，按图中选择按图中提示选择你的scalaSDK目录这样不出意外，一个崭新的scala项目就创建好了。为什么要学...

2019-07-05 20:12:38 708 2

原创 hive中的表操作

导入数据：1、`load data local inpath '/root/tes.txt' into table test.usr;` 将本地的数据导入到hive中2、`load data inpath 'hdfs://node01:9000/user/tes.txt' into table test.te;` 从hdfs集群导入数据LOAD DATA命令，可分为LOAD DAT...

2019-06-21 20:47:03 515

原创 Idea一些简单操作和用Idea连接hive

Idea的安装首先你要先准备好Idea的安装包然后自行解决安装。Idea的操作配置Maven选择File下面Settings找到maven节点，配置图中圈中的三个配置，找到本地maven包路径，和maven依赖包配置依赖jar包右键项目，选择Open Module Settings选择依赖jar包的路径添加进去更新pom.xml文件右键点击pom.xmlId...

2019-06-21 20:32:20 6732 1

原创带你走近Hive数据仓库工具

“懒人推动世界发展”IT行业能发展到如今的地步，可以说都是有这么一句话做支撑，哈哈，懒人的潜力是无限的。回顾MapReduce开发应用程序时, 需要写大量的代码. 然后就有人不想写这复杂的代码, Hive就被开发出来了. 通过编写SQL语句让Hive自动解析SQL, 然后经过一系列操作之后转换成MapReduce应用, 从而实现需求. 也就是说, Hive的出现目的就是把复杂的MapReduc...

2019-06-19 21:03:24 394

原创浅谈zookeeper分布式协调服务内部实现

安装及配置zookeeper首先准备好你的完全分布式集群中的三台从节点虚拟机，利用xftp或命令rz上传zookeeper压缩包并压缩到你的统一解压软件目录下。小技巧：可以先配好一台虚拟机，利用命令scp发送zookeeper配置文件到另外的虚拟机。配置zookeeper环境变量vi /etc/profilesource /etc/profile配置完环境变量一定要让它生效！！！...

2019-06-18 21:20:13 252

转载 MapReduce的通俗理解与入门

看这篇文章请出去跑两圈，然后泡一壶茶，边喝茶，边看，看完你就对hadoop 与MapReduce的整体有所了解了。【前言】Hadoop是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce、分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flum...

2019-06-14 14:33:05 246

原创以eclipse为例搭建Hadoop外部客户端

以eclipse为例搭建Hadoop外部客户端搭建外部客户端准备工作在所有工作之前准备好你的window版的hadoop压缩包，并解压注意：不要压缩到包含中文的路径下！！！压缩之后的目录如下备用。。。然后启动你虚拟机中的伪分布式的hadoop集群一、配置环境变量① 配置jdk环境变量变量值为jdk安装目录然后配置PATH中的jdk环境变量如下图所示配置② 配置h...

2019-06-13 21:06:14 284

原创对于SecondaryNamenode的一些粗浅认识

SecondaryNamenode的作用是对数据进行持久化首先主节点Namenode掌握着一批元数据，那么这些数据此时是在内存里的，所以为了保证元数据的安全，就出现了将内存中的数据存放到磁盘中的一种技术，那就是持久化。断电我们经常会遇到断电的情况，当我们的集群因断电致使电脑强制关机后重新开机，计算机就会去磁盘读取元数据，恢复到断电前的状态。对于Namenode而言，他是不做持久化这个工作的...

2019-06-11 21:05:31 351 2

转载 Shell脚本中判断变量为数字的3种方法

判断变量是否为数字，及过滤负数，可以应用到简易计算机中

2019-06-10 09:18:58 6395 2

翻译 linux命令大全

**不是我整理的linux命令，比较全面！！！**Linux基础的实验主要是在Linux环境下进行熟悉命令以及相关工具的学习和使用，所以该实验的主要内容包括VMware的安装、Linux的安装和打开、Linux的基本命令学习和操作、Linux系统中Gcc和Make工具的应用。环境搭建Linux基础的实验所以依赖的环境是Linux虚拟机，而Linux虚拟机则是运行在VMware Work...

2019-06-09 21:04:24 577 1

mhw666的博客