垫路的石头-CSDN博客

转载老司机常用的kafka监控-eagle

有文章说到了一个叫kafka manager的kafka管理工具，这个工具管理kafka确实很强大，但是没有安全认证，随便都可以创建，删除，修改topic，而且告警系统，流量波动做的不好。所以，在这里浪尖，再给大家推荐一款kafka 的告警监控管理工具，kafka-eagle。kafka-eagle主要是有几个我们关注但kafkamanager不存在的点，值得一提：流量，最长可以查看...

2018-10-11 15:14:15 9028

转载机器学习之KNN算法

1 KNN算法1.1 KNN算法简介　　KNN（K-Nearest Neighbor）工作原理：存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据...

2018-08-15 17:11:08 547

HBase从删库到跑路系列：误删数据如何抢救？话痨解释一番：删库是一个搞笑的说话，在我们的行业间还是要遵循道德的，做一个文明健康的IT人。遵循行业的规则。进入正题：有时候我们操作数据库的时候总会有犯迷糊的时候，一不小心误删数据，这时候应该如何找回？我们知道mysql数据库里有binlog可以帮助我们吧删除的数据恢复，但是如果没有开binlog也没有去备份的话那就尴尬了。如果是大数据的插件HBase...

2018-06-28 18:42:20 735

转载云计算平台构建与实验设计

课程设计任务书一、作业目的物联网的核心是应用，应用的核心是云计算。通过构建一个云计算平台，并利用这个平台设计云计算实验，将结果与普通的电脑计算比较两者的差别，感受云计算的优越性能，从而对物联网有更深刻的体验与认识。二、作业内容及要求能够按照课程设计任务书按照相应的要求完成整个云计算平台的搭建，要完成这个任务，就要对云计算平台的架构和原理有一定的认识，对物联网的应用层有深入的学习，通...

2018-06-20 14:36:37 11543 3

转载 Spark作业执行原理

Spark的作业和任务调度系统是Spark的核心，它能够有效地进行调度根本原因是对任务划分DAG和容错，使得它对低层到顶层的各个模块之间的调用和处理显得游刃有余。下面介绍一些相关术语。作业（Job）：RDD中由行动操作所生成的一个或多个调度阶段。调度阶段（Stage）：每个Job作业会因为RDD之间的依赖关系拆分成多组任务集合，称为调度阶段，简称阶段，也叫做任务集（TaskSet）。调度阶段的划分...

2018-06-20 14:32:19 592

原创 Storm-1.1.0 集群搭建手册---[还有升级的小技巧哦]

部署前准备下载apache-storm-1.1.0http://storm.apache.org/downloads.html网页下去寻找apache-storm-1.1.0.tar.gz，然后下载此虚拟机版本此文拿三个节点类比N个节点的Storm集群配置的搭建，此文搭建的是HA-Storm的集群。下面就让我们一起来搭建storm集群，具体步骤如下： /etc/hosts信息...

2018-06-14 14:50:52 631 4

原创 Java实现十进制转化为任何进制的工具类

1，将一个十进制的数转化十六进制，引申将一个十进制的数转化为二进制，再引申转化为任何进制的函数。下面我写了一个功能性的函数 public class review1 { public static void main(String[] args) { // *******************调用工具类****************** // 将十进制的1...

2019-03-15 09:26:39 1312 2

转载不可不知的zookeeper小工具-zkui

本文主要是首先带着大家回顾一下zookeeper在大数据中的作用，然后给大家介绍一款zk的监控管理工具。zookeeper在分布式集群的作用1，数据发布与订阅（配置中心）发布与订阅模型，即所谓的配置中心，顾名思义就是讲发布者将数据发布到zk节点上，共订阅者动态获取数据，实现配置的集中式管理和动态更新。例如，全局的配置信息，服务服务框架的地址列表就非常适合使用。2，负载均衡即软件...

2018-10-11 15:15:26 577

原创 MapReduce 之Map 端 join

MapReduce 之Map 端 join一前言引入数据倾斜{数据倾斜在MapReduce编程模型中十分常见,用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算...

2018-10-11 15:11:52 3025

原创 Spring Boot中mapper 提示Could not autowire. No beans of … type found

解决方案如下图：四步解决所有问题。

2018-09-11 10:48:05 1455

转载云计算、大数据和人工智能，他们的关系是如何的？

云计算、大数据和人工智能，他们的关系是如何的？今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢？因为这三个东西现在非常火，并且它们之间好像互相有关系：一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员，就可能比较难理解这三者之间的相互关系，所以有必要解释一下。一、云计算最初的目标...

2018-08-01 14:35:38 438 2

原创 Linux下vi编辑器编辑文件时对于意外退出的文档的再次开启的解决方案

1、当我们在虚拟机里面编辑文件的时候，喜欢用vi编辑器，但是由于集群的不稳定，或者自己打开以后忘记关闭，切换到另一个界面继续工作，当再次回来时候，已经失去了编辑的能力了。当我们再次打开此文件的时候就会出现如下界面：<==当时出错忘了截图了，只顾着解决呢，也是学习了一些Scala的Lazy特性，学会了其外表的华丽，就上网收了一下截图。==>这是由于已经打开但未闭关的文件，会在其目...

2018-07-24 19:15:23 2336

转载 HBase总结--附加过滤器、FilterList

一、介绍本节介绍HBase提供的最后两种过滤器，并且也介绍多个过滤器配合使用的方法。二、详解1、附加过滤器（1）跳转过滤器：SkipFilter(Filter filter)该过滤器的参数为一个过滤器。该过滤器的作用为：当参数中的过滤器过滤一个某一个KeyValue对象时，则跳转过滤器会将整行的数据进行过滤。public void example(String tableName) { Conf...

2018-07-02 10:39:30 1951

转载 Hbase FilterList使用总结

我们知道Hbase的Scan经常需要用到filter来过滤表中的数据返回给客户端，单个的filter还好说，如果有多个呢，那么就需要使用FilterList,它也是继承于抽象类Filter,里面持久化了一个有序的order list来存储不同的filter对数据进行过滤.FilterList分为二种类型，如下FilterList allFilters = new FilterList(Filter...

2018-07-02 10:38:04 789

转载 SparkContext的parallelize

在一个Spark程序的开始部分，有好多是用sparkContext的parallelize制作RDD的，是ParallelCollectionRDD，创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数，是slices的数目（例子中是numMappers），它指定了将数据集切分为几份。在集群模式中，Spark将...

2018-06-21 10:38:31 1675

转载 IntelliJ Idea 常用快捷键列表

Ctrl+Shift + Enter，语句完成 “！”，否定完成，输入表达式时按 “！”键 Ctrl+E，最近的文件 Ctrl+Shift+E，最近更改的文件 Shift+Click，可以关闭文件 Ctrl+[ OR ]，可以跑到大括号的开头与结尾 Ctrl+F12，可以显示当前文件的结构 Ctrl+F7，可以查询当前元素在当前文件中的引用，然后按 F3 可以选择 Ctrl+N，可...

2018-06-21 10:36:31 145

翻译如何解释清楚IaaS、SaaS 和 PaaS 的区别？

当别人问到 IaaS、SaaS 和 PaaS有什么区别的时候，如果你只是解释说SaaS是Software-as-a-service，PaaS是Platform-as-a-Service，IaaS是Infrastructure-as-a-Service，别人依然是一头雾水。这时候我们不妨举一个例子。如果你是一个网站站长，想要建立一个网站。不采用云服务，你所需要的投入大概是：买服务器，安装服务器软件，...

2018-06-20 15:40:50 299

转载 Spark Standalong模式运行原理解析

一、概述 Apache Spark是一种快速和通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持一般执行图的优化引擎。它还支持一组丰富的更高级别的工具，包括Spark SQL用于SQL和结构化数据的处理，MLlib机器学习，GraphX用于图形处理和Spark Streaming。 Spark除了在Mesos或YARN群集管理器上运行，它还提供了一种简...

2018-06-20 14:46:44 619

转载基于Hadoop的云计算平台搭建（伪分布式）

本主编心血来潮，整理出此文档，若有不对的地方请诸位指出错误准备：自行下载Vmvare虚拟机，SecureCRT和CentOS-6.5-x86_64-bin-DVD1.iso(镜像文件)关于VMware，SecureCRT的安装以及在VMvare虚拟机上如何装Centos-6.5都很简单，大家网上查找如何安装以及其注意事项即可，在这里不再说明。请谅解，以上环境都准备好的，接下来我们进入正式的环境配置...

2018-06-20 14:37:55 783

转载 Spark运行架构-简要版

1、构建Spark Application运行环境：在Driver Program中新建SparkContext（包含SparkContext的挰序称为Driver Program）；Spark Application运行的表现方式为：在集群上运行着一组独立的executor进程，这些进程由SparkContext来协调。2、Spark Context向资源管理器申请运行Execuotr资源，并启...

2018-06-20 14:30:05 202

转载 Storm-kafka集成——1.1.0版本storm中tuple取KafkaSpout数据详解

问题描述：KafkaSpout拉取kafka topic数据，下一级bolt从kafkaspout获取数据，tuple到底采用什么方法取出spout中的消息呢？KafkaSpout创建：/**根据数据源topic和zk_id创建并返回kafkaSpout* */public static KafkaSpout init(String spout_topic,String zk_id){ ...

2018-06-20 14:09:24 1129 1

转载基于改进的K-means算法在共享交通行业客户细分中的应用

摘要：信息时代的来临使得企业营销焦点从产品中心转变为客户中心，客户关系管理成为企业的核心问题。准确的客户分类结果是企业优化营销资源分配的重要依据，客户分类越来越成为客户关系管理中亟待解决的关键问题之一。面对共享单车行业激烈的市场竞争，各个共享交通公司都推出了更优惠的营销方式来吸引更多的客户，本文借助国内某高校的校园萝卜车共享交通平台，建立了合理的客户价值评估模型—LRFMD模型，基于改进的K-me...

2018-06-01 19:43:27 2841 1

垫脚石的博客