自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Unique small lu bu

Focusing on the Python, Linux, big data, machine learning and data analysis of technical articles

  • 博客(19)
  • 资源 (2)
  • 收藏
  • 关注

转载 Flink状态管理和容错机制介绍

  本文来自8月11日在北京举行的 Flink Meetup会议,分享来自于施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发。本文主要内容如下: 有状态的流数据处理;Flink中的状态接口;状态管理和容错机制实现;阿里相关工作介绍;一.有状态的流数据处理1.1.什么是有状态的计算   计算任务的结果不仅仅依赖于...

2018-08-25 17:00:45 2278

原创 Flink on yarn (HA)测试

  前面已经介绍了Flink on yarn的相关部署,在yarn当中,启动Flink有两种模式,分别是客户端模式和分离式,下面将介绍Flink on yarn HA是如何在宕机后,重启Flink及kill掉进程后,进行主备切换的。   首先我们在Flink on yarn的配置中采用了2个JobManager。其实在Flink on yarn 模式中,一般选择一个JobManager已经足够...

2018-08-20 21:49:15 1695

原创 Flink原理及架构(一)

  Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用一.Flink介绍  Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布,数据通信及容错机制等功能。基于流执行引擎,Flink提供了跟多高抽象层的API便于用户编写分布式任务...

2018-08-16 23:25:41 15341 2

原创 Kafka集群搭建

  Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。软件下载地址:kafk...

2018-08-16 22:20:52 453

原创 Flink的高可用集群环境

Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布,数据通信以及容错机制等功能。

2018-08-12 21:08:30 10432 1

原创 ambari安装记录

在安装过程中遇到了有3个问题吧!在这里就直接贴出来了。 所遇到的问题: 1. raise Fail(format(“Unable to access {java_exec}. Confirm you have copied jdk to this host.”)) 出现这种情况:因为其他几点没有把jdk放到相应的目录下导致!2.Ambari连接mysql设置 在主节点把MySQL数据库

2017-05-07 23:47:03 702

原创 notepad++插件NppFTPa以及安装vsftpd相关配置

因为最近在用linux和notepad++时,上传下载文件让自己浪费了很多的时间。正好身边同事又告诉了我这么个插件,用起来确实很方便。接下来,我把安装步骤及配置贴出来,希望帮到学习的你。1.下载我已经上传上去 了,下载地址: NppFTP下载2.解压解压后,将bin目录下的NppFTP.dll拷贝到notepad++ 的plugin下。重新启动即可3.配置(1).notepad++的“插件”菜单

2017-05-07 18:15:09 1832 1

原创 大数据平台Lambda架构详解

Lambda架构由Storm的作者Nathan Marz提出。 旨在设计出一个能满足实时大数据系统关键特性的架构,具有高容错、低延时和可扩展等特性 。 Lambda架构整合离线计算和实时计算,融合不可变(Immutability),读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,HBase等各类大数据组件。 Lambda架构的主要思想就是

2017-05-06 16:41:59 10304 4

原创 hive中文乱码的解决办法

在HIVE中建表的时候,有时候难免要表中文注释,然而如果不经过配置,会导致desc某个表名的时候,直接以?的方式返回。 因此也来解决一下HIVE中文注释乱码的问题。由于HIVE的元数据是存在于MYSQL上的,因此需要在MYSQL上进行元数据的候。 当hive使用mysql作为元数据库的时候mysql的字符集要设置成latin1 default。 alter da

2017-05-03 00:02:56 8572

原创 ElasticSearch之kibana5.x安装

在安装之前,首先讲下kibana是做什么用的?有那些功能? 作用: kibana是一个功能强大的elasticsearch数据显示客户端,logstash已经内置了 kibana,你也可以单独部署kibana,最新版的kibana3是纯html+js客户端,可以很方便的部署到Apache、Nginx等Http服务器功能图表自定义哪些列显示以及显示顺序实际执行的查询语句可以看到支持

2017-04-09 21:46:07 3670

原创 ElasticSearch插件之IK分词,bigdesk

因集群与插件是一起搭建的,所以就一口气把自己搭建过程全部记录下来了。重点介绍一下ik分词以及bigdesk。ik分词就不介绍了,bigdesk是个监控工具。就是这样。接下来,是这2个插件与ES集成的安装搭建了。 首先先讲下IK分词,后面在讲bigdesk.一.ik分词IK分词器下载 IK分词下载地址 https://github.com/medcl/elasticsearch-analysi

2017-04-09 20:30:29 581

原创 ElasticSearch集群搭建

在ElasticSearch搭建的过程中,遇到了很多的坑。也花费了很长时间去研究。终于从集群搭建到监控在到ES的kibana的搭建,完成了基本的搭建流程。下面把集群搭建的一些步骤以及一些遇到的问题,就在这里贴出来了,希望帮助到看到的你。首先,在集群搭建之前,要先搞清楚ES中各种的配置属性是什么意思,不然在搭建时,有问题出现也是一头雾水,不多说了,做起来。1.Elasticsearch cluste

2017-04-09 20:16:16 710

原创 Python 内置小工具

Python当中也有几个内置的小工具,下面就将贴出来,呈现给大家。在工作当中提高一些效率。一.启动一个下载服务器在实际工作中,时不时要将文件传给别人。现在的工具也是比较多的,操作起来也是比较麻烦的。如果想要更加高效工作,在Python中提供了一个内置的小工具。你可以进入这个目录,然后执行以下命令即可。1.在Python2中,需要执行:C:\Users\hanfeii>python -m Sim

2017-04-05 14:20:48 398

原创 ElasticSearch安装问题的记录

一.使用root账号启动es后 会遇到以下问题[2017-04-04T17:41:28,377][WARN ][o.e.b.ElasticsearchUncaughtExceptionHandler] [h001] uncaught exception in thread [main]org.elasticsearch.bootstrap.StartupException: java.lang.R

2017-04-04 18:22:22 2794 1

原创 ElaseticSearch单节点安装

摘要:最近因为去了一家公司,用到的技术很多也是在不停的完善,领导说,讲一下之前的公司的一些技术。讲完后,最近感觉也没什么事情了。就想起来了在 大数据领域比较火的这个文档型企业搜索库。刚开始学习,遇到了很多棘手的问题,首先就是安装遇到了很多麻烦。接下来,我将把我遇到的问题都呈现给需要帮助的人。废话不多说了,首先,先说下这个软件的单节点安装,后面在写一些集群安装的文章吧!一.下载所需要的软件 因为是需

2017-04-04 17:56:16 532

原创 Python 迭代器

有些人致力于把python代码写的更好,一来更符合规范且容易阅读,二来使代码在执行效率上也更有效率。那接下来针对针对迭代介绍一下:一.并行迭代 这是在python中最常见,大家经常应该遇到的一种并行迭代,下面针对并行迭代就直接上代码了。>>> name = ['lucy','lisi','zhangsan','tom']>>> age = [23,54,42,31]>>> for names

2017-04-02 17:05:55 312

原创 hadoop Spark源码编译所需要的环境

一.Hadoop源码编译1.检查并安装gcc*2.安装Maven3.安装ProtocolBuffer4.安装Cmake5.安装Zlib6.安装Openssl7.安装Snappy8.编译Hadoop9.本地库检测10.Hadoop配置Snappy压缩二.Spark源码编译1.Spark版本选择2.在线安装Git(root)用户下3.创建一个目录克隆Spark源代码4.切换Sp

2017-03-23 16:56:39 596

原创 Ipython与spark(pyspark)整合

首先,在整合过程中遇到了很多的坑,此文章我将献给那些擅长用python使用spark的读者,希望对所看读者有所帮助。废话不多说了,下面开始整合。 本次安装采用的环境为: 1.Anaconda2 2.spark1.6.1一.下载并安装Anaconda2 1.下载地址:[Anaconda下载](https://www.continuum.io/downloads)

2017-03-18 19:22:30 1431

原创 Hive 安装

在安装Hive之前,确保你已经安装了Hadoop集群平台,并且hive安装在主节点即可。接下来,正式进入安装hive的步骤。 1.下载到目录:下载的软件为CDH版本 [链接地址](http://archive.cloudera.com/cdh5)2.解压软件到指定目录: [root@h001 down]# tar -zxvf apache-hive-1.2.1-bin.tar.gz -C

2017-02-08 14:59:02 235

notepad++ ftp插件 下载

notepad++ FTP插件与linux的上传下载

2017-05-07

mysql命令大全

2016-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除