自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (1)
  • 收藏
  • 关注

原创 超详细Hadoop HA高可用集群搭建及常见问题处理

最近研究了下公司的hadoop集群并模仿搭建了一个在本地测试使用的hadoop集群。本文介绍下详细的搭建过程以及各种常见问题的处理解决。1 , 前期准备 1.0 , 准备Linux环境。安装vmware linux虚拟机,因为Centos 7 和Centos 6版本部分命令差别还挺多了,所以我本次用的Centos 6版本,用什么你随意,高兴就...

2018-06-19 16:19:41 24354 4

原创 win10 安装最新版python 39 , cmd下查看版本号无反应解决

在 系统键 + R 中输入cmd, 然后输入你的 python安装目录;%PATH% 即可, 例:set PATH=C:\Users\mrwanghc\Python39;%PATH%

2020-11-30 10:26:26 39

原创 springboot redis所数据源配置

springboot redis所数据源配置, 不多比比了,直接贴图上代码,希望能都帮到您 !在provider 层 的配置文件 application-dao.properties 中配置好参数#测试环境spring.redis.database=0spring.redis.search.database=1spring.redis.host=**************************spring.redis.password=****************spring.

2020-11-04 15:45:24 38

原创 springboot java+redis 实现简单实用的搜索栏热搜功能,不雅文字过滤功能。

使用java和redis实现一个简单的热搜功能,具备以下功能:1:搜索栏展示当前登陆的个人用户的搜索历史记录,删除个人历史记录2:用户在搜索栏输入某字符,则将该字符记录下来 以zset格式存储的redis中,记录该字符被搜索的个数以及当前的时间戳 (用了DFA算法,感兴趣的自己百度学习吧)3:每当用户查询了已在redis存在了的字符时,则直接累加个数, 用来获取平台上最热查询的十条数据。 (可以自己写接口或者直接在redis中添加一些预备好的关键词)4:最后还要做不雅文字过滤功能。这个很重要不

2020-11-04 15:23:23 326 4

原创 阿里云视频直播视频存储回调功能的处理方法

当我们接入阿里云的视频直播功能后,我们想让录制好的视频存储到oss上,并让阿里回调我们服务器写好的接口,获取存储到oss上的路径,存入数据库,以便用户查看回放记录。如图:配置到该配置,官网上有自己搞就完了。当阿里回调到我们服务器写好的接口的时候,有个小的处理细节是阿里返回的 request 中的格式是:] call --> synLiveVideoUrl ==> {"domain":"livepull.jianlet.com","app":"jianlet","stream":"

2020-09-17 15:26:05 230

原创 (2019-08-14最新)基于Centos7 linux系统安装最新版rabbitmq及其erlang环境单机版搭建教程

(2019-08-14最新)基于Centos7 linux系统安装最新版rabbitmq及其erlang环境单机版搭建教程 这是官网的安装教程https://www.rabbitmq.com/install-rpm.html,打开你会发现非常不友好。。。实际搭建中会遇到一些问题官网中并也并没有提到。不多比比,今天刚搭好mq,搭建过程及遇到一些问题在这里说一下,要是想搭建的...

2019-08-14 16:06:12 133

原创 利用keepalived实现高可靠 动态管理 ngnix

实际工作中ngnix肯定要做成高可用模式,防止一个ngnix挂了,所有请求都无法访问成功,我们可以利用keepalived实现高可靠来动态管理ngnix,cong从而让ngnix也具备高可用性。1 ,keepalived实现高可靠(HA)HA(High Available), 高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点,keepali...

2018-08-21 14:50:05 210

原创 ELK(Elasticsearch+Logstash+Kinaba)日志分析系统

1,简介ELK由Elasticsearch、Logstash和Kibana三部分组件组成;Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。Logstash是一个完全开源的工具,它可以对你的日志进行收集、分析,并将其存储供以后使用kibana 是一个开源和免费的工具,它可以...

2018-08-21 09:43:31 500

原创 Kafka结合Spark-streaming 的两种连接方式(AWL与直连)

kafka结合spark-streaming的用法及说明之前博客有些,这里就不赘述了。这篇文章说下他们结合使用的两种连接方式。(AWL与直连)先看一张图:这是kafka与streaming结合的基本方式,如图spark集群中的 worker节点中 exeutor线程里的 receiver接口会一直消费kafka中的数据,那么问题来了,假如我们定义5秒消费一次,如果spark集群定义了每...

2018-08-14 09:34:58 11539 2

原创 kafka 整合 spark streaming 实例

1,启动zk集群(如何搭建不解释,之前文章有详解)在每台机器上执行启动命令:bin/kafka-server-start.sh config/server.properties2,创建kafka的 topic话题(如何搭建kafka不解释,之前文章有详解)bin/kafka-topics.sh --create --zookeeper 192.168.2.201:2181 --r...

2018-07-31 17:23:59 287

原创 spark streaming整合flume(常用的poll类型)

在实际生产工作环境中,spark streaming经常和flume或者kafka整合在一起使用,本片文章说下与flume整合过程。常用的整合方式有两种,一种是push类型,一种是poll类型,在实际分布式生产环境下,我们使用poll类型,也就是由spark streaming向flume拿数据,push类型是flume向streaming 送数据。我们这里只说下poll类型的整合方式。1...

2018-07-30 15:28:26 636 1

原创 spark Streaming介绍及实例编写

1,引用一段官网介绍spark Streaming是Spark core API的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点。数据可以从许多来源获取,如Kafka,Flume,Kinesis或TCP sockets,并且可以使用复杂的算法进行处理,这些算法使用诸如map,reduce,join和window等高级函数表示。最后,处理后的数据可以推送到文件系统,数据库...

2018-07-30 12:35:54 941

原创 hive 整合spark sql在集群中使用

介绍写如何将hive整合到sparkSql中使用,因为公司一些老hadoop框架中的hive一直保留着,但spark框架也要使用hive怎么办呐,很简单,配置文件搞一下就可以了。(注意hive和spark的版本是有对应关系的,去官网查下,下载对应的hive和spark,否则启动会报错。1,配置文件在spark的conf目录中添加hdfs-site.xml 和 hive-site.xml...

2018-07-25 20:40:03 909

原创 Spark SQL 入门精简概念

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。1, 为什么要学习Spark SQL我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运...

2018-07-25 09:28:24 165

原创 使用scala编写一个简单实例到spark集群运行

实际工作上很少在虚拟机上直接使用spark-shell去编写程序,更多的是在IDEA等编辑器上将写好的程序打包,使用spark-submit提交到集群上去执行。我们使用scala去编写程序,不会的自己百度学下,不解释。1,安装jdk 因为scala也是运行在jvm上的,所以需要安装jdk。(jdk安装方法不解释,自己百度,建议安装1.7以上版本)2,安装scala笔者安装的...

2018-07-18 11:14:03 6005

原创 spark中RDD算子介绍

1. spark简介Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。2. RDD简介RDD(Resilient Distributed D...

2018-07-16 20:16:04 3368

原创 搭建以hdfs为文件存储库的spark集群

1,搭建启动hadoop HA集群,之前文章有详细的搭建过程。启动HDFS(在weekend01上执行)sbin/start-dfs.sh找一个文件上传到自定义hdfs目录下面启动spark shell 交互命令行(在weekend02 启动)bin/spark-shell --master spark://weekend02:7077 --executor-memory ...

2018-07-16 18:45:16 3121

原创 搭建高可用spark HA集群

实际生产中会搭建spark ha集群,本地测试的话整个单机的就行了。这里我们先介绍下单机如何配置,然后再在他基础上搭建高可用HA集群。单机版配置 : master=weekend01 , works = weekend03,weekend04,weekend051,下载安装/spark-x.x.x-bin-hadoopx.x jar包到weekend01上。(不解释,自己弄一个)2,...

2018-07-16 15:08:20 6317

原创 Flume 整合 kafka实例讲解

1,前置条件:(这些清参考之前文章) 1,安装好zk集群,安装好kafka集群 (准备三台weekend01,weekend02,weekend03) 2,安装好Flume2、创建flume配置文件cd /usr/app/apache-flume-1.6.0-bin/confmkdir myconfvi exec.conf输入以下内容: a1.sources = r1a1.chan...

2018-07-10 21:34:54 3126

原创 kafka整合strom代码实例讲解

strom整合kafka关键就是以strom中的spout当作kafka的消费者来接收生产者传入的数据。画一个简单的图:好了,接下来我们直接上代码!1,先写一个main方法,作为消费者来接受生产者数据。package cn.itcast.storm.topology;import storm.kafka.BrokerHosts;import storm.kafka.KafkaSpout;i...

2018-07-10 15:07:41 5426

原创 Java客户端编程 kafka生产与消费者

1, 先写下生产者java代码运行之,然后在虚拟机上启动一个topic,紧接着用在虚拟机上写一个消费者去拿数据。生产者java代码 :package cn.itcast.kafka;import java.util.Properties;import kafka.producer.KeyedMessage;import kafka.producer.Producer;import kaf...

2018-07-10 13:45:35 2820

原创 工作流调度器 azkaban

为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:1、 通过Hadoop先将...

2018-07-10 10:24:03 2775

原创 日志采集框架Flume 与 数据迁移sqoop

1, Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景2...

2018-07-09 21:28:40 4440

原创 kafka简介,集群部署

1、Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时...

2018-07-09 21:10:11 2970 1

原创 storm 集群搭建精简版

本文是基于hadoop-HA基础搭建下storm集群的搭建过程(之前文章有搭建过程)搭建过程超级简单如下:1 ,下载安装下载zookeeper和storm安装包,并上传到你的linux上。 安装命令 : tar -zxvf xxx.zip /usr/app2 , 安装zookeeper集群准备三台机器,分别为weekend01,weekend02,wee...

2018-06-22 09:37:35 6111

原创 storm 原理详解

1 为什么要使用Storm?Apache Storm是一款免费且开源的分布式实时计算系统。Storm可以轻松地可靠地处理无限数据流,从而实时处理Hadoop进行批处理的操作。Storm很简单,可以与任何编程语言一起使用,并且使用起来非常有趣!Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等等。Storm速度很快:基准测试表明,每个节点每秒处理超过一百万个元组。它具有可...

2018-06-21 21:03:51 3122

转载 Hbase的原理及架构设计介绍(转载)

HBase 1、HBase介绍和工作原理  HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hado...

2018-06-21 10:39:49 6252

原创 在 hadoop分布式集群下搭建Hbase集群

这篇文章hbase集群的搭建是基于我之前写过的一篇文章中hadoop HA集群下搭建的,如果有需要看的话点击此处!下图是我本次集群搭建蓝图。1 , 首先上传hbase安装包, 选择版本的时候一定要注意,因为hbase和hadoop版本是由一定依赖性的,官网相应包的对应关系,大家自行查看。 上传完成后解压 。 tar -zxvf...

2018-06-20 21:25:15 6281

原创 创建简单的Hive自定义函数

这篇文章介绍下如何创建一个简单的自定义Hive函数并在如何Hive中使用它,其实Hive语法还挺不简单,这里我们只提供一个思路,一个常规的开发实例供大家参考。1, Java程序编写自定义函数import org.apache.commons.lang3.StringUtils; import org.apache.hadoop.hive.ql.exec.UDF; import j...

2018-06-20 20:49:32 7811

原创 hadoop中hive原理及安装

hive是什么(官网概念)Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;Hive...

2018-06-20 09:54:33 15293

原创 hadoop HA 模式集群配置文件

修改hadoo-env.shexport JAVA_HOME=/usr/app/jdk-7u_65-i585修改core-site.xml<configuration> <!-- 指定hdfs的nameservice为ns1 --> <property> <name>fs.defaultFS</name> <value>h...

2018-06-19 15:57:19 14690 2

转载 HDFS 及 YARN框架流程详解

一、 HDFS介绍:Hadoop2介绍 HDFS概述 HDFS读写流程      1.  Hadoop2介绍Hadoop是Apache软件基金会旗下的一个分布式系统基础架构。Hadoop2的框架最核心的设计就是HDFS、MapReduce和YARN,为海量的数据提供了存储和计算。HDFS主要是Hadoop的存储,用于海量数据的存储;MapReduce主要运用于分布式计算;...

2018-06-12 14:21:31 16198

原创 hadoop的自定义分组实现 (Partition机制)

hadoop开发中我们会遇到类似这样的问题,比如 如何将不同省份的手机号分别输出到不同的文件中,本片文章将对hadoop内置的Partition类进行重写以解决这个问题。  MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量(R)。用户在中间key上使用分区函数来对数据进行分区,之后在输入到后续任务执行进程。Hadoop中自带了一个默认的分...

2018-06-12 10:22:05 17060

原创 hadoop启动集群的免密码登陆设置 详解附流程图

每次我们启动hadoop集群的时候是不是要一个劲的重复输入密码,要是集群很多的话岂不是太麻烦了,这篇文章介绍如何设置hadoop集群的免密码登陆。1 ,启动两台虚拟机 一台主机名叫 redis110 , 另一台叫wanghc110 ,如果我们想从 redis110上登陆wanghc110的话,会让我们输入密码如图: (如果不清楚主机名怎么修改的话看这里)编辑如...

2018-06-11 16:47:59 29193

原创 Centos7 下安装 docker个人总结版

参考自 spring cloud与docker微服务架构实战一书。系统要求 : Docker官方建议将Docker运行在Linux系统上,当然也可以在其他平台运行,本片博客只介绍在linux系统上的安装方法。 Docker运行在CentOS7.X 版本以上,本文使用 CentOS 7.5 版本。Docker需要安装在64位平台。 Docker 要求 Cen...

2018-05-29 11:01:09 26581 4

LOL 英雄联盟壁纸全套全英雄高清壁纸下载

LOL 英雄联盟壁纸全套全英雄高清壁纸下载

2020-11-30

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除