自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 使用MapReduce实现定图的最小生成树

使用MapReduce实现定图的最小生成树如何实现计算最小生成树什么是最小生成树最小生成树的性质使用`Kruskal`算法实现最小生成树Kruskal算法简述实现逻辑MapReduce实现`Kruskal`算法如何实现计算最小生成树什么是最小生成树在一给定的无向图G = (V, E) 中,(u, v) 代表连接顶点 u 与顶点 v 的边(即),而 w(u, v) 代表此边的权重,若存在 T 为 E 的子集(即)且为无循环图,使得w(T)=∑(u,v)∈tw(u,v)w(T) = \sum_{(u,

2020-09-07 08:46:59 1503

原创 Spark MLlib基于K-Means实现数据聚类

Spark MLlib基于K-Means实现数据聚类K-MeansK-Means简介算法实现原则Spark实现K-MeansSpark机器学习库算法步骤完整代码(基于spark.ml)K-MeansK-Means简介       k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之

2020-09-07 08:46:42 1339

原创 Kettle数据抽取——创建转换的详细步骤(集群模式运行)

Kettle使用教程(集群模式提交)Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变量:pentaho_java_home,例如:C:\Program Files\jdk1.8,其实就是你的java安装目录,1.6以上即可。windows下双击Spoon.bat就可以了,界面如下:全量数据抽取示例(以Postgresql到Postgresql为例)文件->新建转换新建转换后在左边的主对象树中建立

2020-08-11 16:30:50 2274

原创 Spark超时重启、自动拉起脚本(Python版)

程序说明无自动拉起脚本Spark Streaming程序往往不稳定,遇到一些网络延迟或者部分节点挂掉会导致程序批次时间过长,从而影响程序的实时性。Spark Streaming 程序会因为一些不可控因素宕机,影响数据处理。该自动拉起脚本会根据Spark在Yarn中的任务ID去判断程序是否宕机,如果程序宕机,则启动Spark程序。会根据Yarn的Web页面获取当前批次的处理时长,如果批次执行时间过长的话就会重启Spark程序。代码(Python版)# -*- coding: utf-8

2020-07-24 19:47:16 2598

原创 Spark(Scala)连接带Kerberos认证的Hbase

参数zookeeperQuorum:zookeeper主机名/IPclientPort:zookeeper端口znodeParent:Hbase在zookeeper中的元数据节点(可在Hbase配置文件中或者ZkCli中查看该配置)kerberosConfPath:krb5.conf路径(可放在项目的resurces目录下)principal:具有访问权限的Kerberos票据keytabPath:Kerberos票据对应的keytab路径Java版代码连接代码import org.a

2020-07-22 16:53:54 2717

原创 Java连接Kerberos认证的Hbase

参数zookeeperQuorum:zookeeper主机名/IPclientPort:zookeeper端口znodeParent:Hbase在zookeeper中的元数据节点(可在Hbase配置文件中或者ZkCli中查看该配置)kerberosConfPath:krb5.conf路径(可放在项目的resurces目录下)principal:具有访问权限的Kerberos票据keytabPath:Kerberos票据对应的keytab路径连接代码package com.tky.conf

2020-07-22 16:38:07 2735

原创 40行代码换1000文章阅读量?

CSDN增加访问量

2020-07-14 17:09:36 3300 2

原创 Spark ML计算皮尔逊相似度案例
原力计划

Spark ML 计算两用户间的皮尔逊相似度功能说明数据格式及说明设计思路Spark ML 计算皮尔逊相关系数代码(Scala)功能说明该程序根据不同用户对不同电影的评分情况,通过Spark ML中Correlation.corr函数计算用户之间的皮尔逊相关矩阵。数据格式及说明该数据为模拟数据。X A:5.0,B:1.0,C:2.0,D:0Y A:3.0,B:1.0,C:2.0,D:3.00其中X、Y分别代表两个用户A-D代表电影名称,电影名后面代表该用户的评分注意:实

2020-07-08 17:58:57 3396 2

原创 Spark MLlib机器学习 Pipelines
原力计划

Spark ML PipelinesML管道管道的主要概念DataFramePipeline components(管道组件)Transformers(转换器)Estimators(估算器)Properties of pipeline components(管道组件属性)Pipeline(管道)工作流程详细参数ML持久性:Saving and Loading Pipelines持久性的向后兼容代码示例Estimator, Transformer, and ParamPipelineML管道管道的主要概念

2020-07-02 22:04:47 3184

原创 Hbase单节点伪分布式搭建

Hbase伪分布式搭建引言Hbase伪分布式搭建是指在一台机器上同时运行 Hmaster、 Hregionserver,该文章基于Hadoop伪分布式搭建Hadoop伪分布式搭建传送门搭建过程Zookeeper安装将Zookeeper压缩包上传至服务器解压缩Zookeeper二进制文件[root@CentOS ~]# tar -zxvf zookeeper-3.4.6.tar.gz -C /opt/install/c进入Zookeeper根目录[root@CentOS ~]#

2020-06-27 16:19:07 3194

原创 Hive安装(超详细)

Hive安装前提环境Hive安装解压文件修改配置文件HDFS创建Hive工作空间配置Hive环境变量Hive启动替换Hive原生MetaStore前提环境Linux基础设置以及Hadoop环境安装请看上一篇文章Hive安装解压文件[root@localhost ~]# tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /opt/install/修改配置文件[root@localhost apache-hive-1.2.2-bin]# cd /opt/in

2020-06-24 18:03:00 3998 2

原创 Hadoop 伪分布式搭建(超详细)
原力计划

Hadoop伪分布式搭建虚拟机准备阶段操作安全设置防火墙相关指令关闭关闭selinuxIP设置查看机器IP修改主机名修改IP及主机名映射SSH免密登陆Hadoop伪分布式搭建JDK配置解压配置环境变量Hadoop配置解压文件修改配置文件配置Hadoop环境变量验证环境变量是否配置成功格式化NameNodeHadoop起停命令查看WebUI界面虚拟机准备阶段操作本文是基于CentOS 7 系统搭建相关资源下载链接:https://pan.baidu.com/s/1FW228OfyURxEgnXW0qq

2020-06-24 17:44:34 4165

原创 Spark入门( 九)——机器学习 Spark MLlib
原力计划

Spark MLlib机器学习是什么?机器学习Spark MLlibSpark MLlib案例快速入门基本统计Correlation(相关性)Hypothesis testing(假设检验)Summarizer(总结器)未完待续。。。机器学习是什么?机器学习数据挖掘有着50多年的发展历史。机器学习就是其子领域之一,特点是利用大型计算机集群来从海量数据中分析和提取知识机器学习与计算统计学密切相关。它与数学优化紧密关联,为其提供方法、理论和应用领域。机器学习在各种传统设计和编程不能胜任的计算机任务中有广

2020-06-24 13:13:59 3203

原创 Thread.sleep(0)到底是个什么骚操作?

今天看到一段有意思的代码:Thread.sleep(0),下面就来分析一下这串看似无用的代码到底有没有用。Thread.sleep(0)到底是个什么骚操作,这睡0毫秒和不睡有什么区别吗?操作系统资源的分配策略想要去了解多线程,就先要去了解操作系统中资源的不同分配策略在操作系统中,CPU资源的分配策略有多种,下面就拿两种最为典型的策略举例:时间片算法基于时间片算法分配资源的代表就是Unix系统。在时间片算法中,操作系统会维护一个队列,将所有的进程放入队列中。然后操作系统会按照队列中的进程顺序为

2020-06-17 23:20:29 3117

原创 Spark入门( 八)——Spark流计算新玩法-Structured Streaming
原力计划

Structured Streaming介绍与使用

2020-06-15 22:27:02 3232

原创 Spark入门(七)——最全的Saprk SQL算子介绍与使用(下)
原力计划

Spark SQL 查询SQL语法查询单行查询模糊查询排序查询limit查询分组查询having过滤case-when行转列pivotCube计算Join表连接子查询开窗函数开窗函数SQL解读ROW_NUMRANK()DENSE_RANK() /密集排名自定义函数单行函数聚合函数(untyped)Load/SavePaquetJSONORC(存储压缩格式,比较节省空间)CSVJDBCDataFrame转为RDDSQL语法查询单行查询// 单行查询var userDF = List((1, "张三",

2020-06-12 15:27:16 3237

原创 Spark入门(六)——最全的Saprk SQL算子介绍与使用(上)
原力计划

Spark DataSet、DataFrame使用 Spark SQL使用方法

2020-06-01 17:08:03 3305

原创 Spark入门(五)——Spark Streaming
原力计划

Spark Streaming学习 Spark流计算

2020-05-27 12:53:17 4441 3

原创 Spark入门(四)——Spark RDD算子使用方法
原力计划

Spark RDD算子使用方法 spark算子语法

2020-05-26 09:58:15 3188

原创 Spark入门(三)——SparkRDD剖析(面试点)
原力计划

Spark面试 Spark源码剖析,Spark任务过程提交、宽窄依赖面试点 SparkRDD

2020-05-22 17:37:03 3153

原创 Spark入门(二)——Spark环境搭建与开发环境
原力计划

Spark Standalone 和 Spark On Yarn环境搭建

2020-05-21 09:18:34 3247

原创 Spark入门(一)——Spark的“前世今生”
原力计划

Spark入门(一)-Spark简介

2020-05-21 08:55:54 3226

原创 GeoHash算法原理及实现
原力计划

GeoHash原理及代码实现

2020-05-19 17:36:54 3173

原创 Redis新版本发布,你还认为Redis是单线程?
原力计划

Redis到底是单线程还是多线程

2020-05-13 11:21:45 3146

原创 关于Springboot、SpringCloud以及SpringCloud-Alibaba Nacos依赖问题
原力计划

依赖关系SpringBoot和SpringCloud大版本对应关系Alibaba组件版本关系SpringBoot、Cloud、Alibaba 毕业版本依赖关系(推荐使用)依赖管理RELEASE 版本Alibaba组件依赖坐标示例由于目前阿里的SpringCloud组件以及孵化成功,导致写项目导入pom依赖坐标时比较纠结,网上对版本的兼容介绍也变得五花八门。SpringBoot和SpringCl...

2020-04-08 10:01:50 3558

原创 Feign开启HyStrix后如何配置线程隔离及熔断策略

Feign集成Hystrix默认是关闭Hystrix的,只有在配置文件中设置feign.hystrix.enabled=true才会开启Hystrix。开启Hystrix后feign之间的方法调用就会默认启动新的线程执行和主程序不在一个线程中,因此如果上下文中存在ThreadLocal变量,在该方法中就失效了。因此一般可以通过设置CommandProperties注解属性,设置线程就可以了。...

2020-03-27 08:57:07 5020 2

原创 SpringCloud之配置中心-Config

Config-ServerSpring Cloud Config 是 Spring Cloud 团队创建的一个全新项目,用来为分布式系统中的基础设施和微服务应用提供集中化的外部配置支持, 它分为服务端与客户端两个部分。服务端称为分布式配置中心, 它是一个独立的微服务应用, 用来连接配置仓库并为客户端提供获取配置信息、 加密/解密信息等访问接口;客户端微服务架构中的各个微服务应用或基础设施, 它们...

2020-03-23 14:39:55 3061

原创 使用Docker搭建Greenplum

准备工作Docker环境Greenplum安装包greenplum-db-6.4.0-rhel7-x86_64.rpm 密码:sv4p安装Dockerfile文件FROM lyasper/gphostCOPY greenplum-db-6.4.0-rhel7-x86_64.rpm /home/gpadmin/greenplum-db.rpmRUN rpm -i /hom...

2020-03-04 19:16:04 4229

原创 SpringCloud之OpenFeign

Feign提供声明式的远程调用,借用动态代理实现远程调用,使编写Web服务客户端变得更容易。 Spring Cloud增加了对Spring MVC注释的支持,并使用了Spring Web中默认使用的相同HttpMessageConverters。 Spring Cloud集成了Ribbon和Eureka,在使用Feign时提供负载均衡的http客户端。快速入门Eureka-server配置...

2020-02-26 22:14:01 3242

原创 SpringCloud之服务注册-Eureka

Spring Cloud Eureka 是 Spring Cloud Netflix 微服务套件中的一部分, 它基于 Netflix Eureka 做了二次封装, 主要负责完成微服务架构中的服务治理功能。 Spring Cloud 通过为Eureka 增加了 Spring Boot 风格的自动化配置,我们只需通过简单引入依赖和注解配置就能让 Spring Boot构建的微服务应用轻松地与 Eure...

2020-02-21 20:41:47 3094

原创 SpringCloud之熔断器-Hystrix

Hystrix是一个延迟和容错库,旨在隔离对远程系统,服务和第三方库的访问点,停止级联故障,并在复杂的分布式系统中实现弹性,在这些系统中,故障是不可避免的。依赖<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-...

2020-02-13 17:22:04 3094

原创 SpringCloud之注册中心-Nacos

Nacos简介Nacos是阿里巴巴开源的一款支持服务注册与发现,配置管理以及微服务管理的组件。用来取代以前常用的注册中心(zookeeper , eureka等等),以及配置中心(spring cloud config等等)。Nacos是集成了注册中心和配置中心的功能,做到了二合一。 Nacos gitHub : https://github.com/alibaba/nacos Nocos ...

2020-02-12 22:28:32 3076

原创 SpringCloud之Ribbon-负载均衡

SpringCloud之Ribbon-负载均衡负载均衡:Spring Cloud RibbonSpring Cloud Ribbon 是一个基于Http和TCP的客服端负载均衡工具,它是基于Netflix Ribbon实现的。通过SpringCloud的自动配置使得项目可以自动的给RestTemplate添加拦截器,实现负载均衡的作用。快速入门pom.xml<?xml vers...

2020-02-11 18:17:59 3039

原创 Elasticsearch入门篇

ElasticSearchElasticSearch:简称为ES,基于Lucene全文检索引擎服务,支持分布式集群(数据横向扩展、分布式计算)应用场景:1. 全文检索或者搜索服务 2. NOSQL数据库(ES中的数据单元为JSON) 3. ELK数据分析平台NRT (near real time) 接近实时 ES中的一条数据写入后大概会有1s的延迟才能被检索到9300端口:Es节点之间通讯...

2020-02-06 12:14:22 3045

原创 Apache Flume

Apache Flume介绍架构Flume环境搭建配置文件结构快速入门启动Avro SourceMaven依赖代码Avro Source | memory channel| Kafka SinkFlume和log4j整合依赖log4j.properties测试代码Spring Boot logback整合 FlumeSpringBoot项目组引入logback.xml集成 Flume +log...

2019-11-07 11:13:20 3047

原创 Hadoop生态圈-Hive

HiveHive引言Hive的运行原理Hive环境搭建Hive基本操作MetaStore的替换问题Hive引言什么是Hive hive是facebook开源,并捐献给了apache组织,作为apache组织的顶级项目。 hive.apache.org hive是一个基于大数据技术的数据仓库技术 DataWareHouse (数仓) 数据库 DataBas...

2019-10-29 22:08:07 3119

原创 Hbase伪分布式及高可用集群搭建

HBaseHbase的引言什么是HBaseNoSQL特点NoSQL分类Hbase存储的逻辑结构Hbase伪分布式环境的搭建Hbase的shell命令HBase 集群搭建1.时间同步集群2.Hadoop集群搭建3. Zookeeper集群4. HBase集群HBase JAVA APIMaven依赖方法HBase中的过滤器HBase中列簇相关的属性HBase 体系结构1.RegionServer2....

2019-10-29 21:32:12 3149

原创 Spark 写入带有Kerberos认证的HBase在Yarn-Cluster模式下运行报错

先粘出来报错信息javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)] at com.sun.security.sasl.gss...

2019-09-27 10:48:53 4293 2

原创 Spark SQL 读取 Hive表中数据 在Cluster模式下找不到库

在Spark On Hive使用SparkSQL读取hive表中的数据,local和client模式下测试都可以通过,但在yarn的cluster模式下测试抛出了如下异常:org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ‘test’ not found;最后找出原因:把spark的任务jar放到y...

2019-08-29 17:09:16 3868

原创 一篇文章读懂Kafka消息队列

Kafka 基础篇消息队列的概念使用消息队列的场景分析异步消息发送:系统间解耦合Kafka 架构Kafka集群安装准备工作安装Zookeeper集群确保Kafka集群的正常运行Kafka安装步骤启动服务测试Topic 和 日志生产者消费者Topic管理篇(DDL)创建TocpicTopic详细信息删除TopicTopic列表Kafka API实战(JDK1.8+)快速入门Maven依赖引入log4...

2019-07-24 19:44:02 2447

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除