xiaoxin1024-CSDN博客

原创 numSplits源码分析

/** Splits files returned by {@link #listStatus(JobConf)} when * they're too big.*/ //numSplits：来自job.getNumMapTasks()，即在job启动时用org.apache.hadoop.mapred.JobConf.setNumMapTasks(int n)设置的值，给M-R框架的Ma...

2018-11-01 17:57:10 375

原创 Centos6.7安装ES6.1.3

titlecategoriestagsdateCentos6.7安装ES6.1.3fortest数据开发2019/08/18 19:21:21the life i want，there is not shortcut.0x00前知1，该ES6.1.3需要适配的JDK版本为1.8+2，本文安装前JDK环境已配置好，如无配置，请自行谷歌并配置好JDK环境...

2019-08-18 16:37:08 1413

转载关于HBase扩容的一些思考

参考--HBase在滴滴的应用场景和最佳实践一是说新增的RS节点的配置最好要和前面的一致在此以后，进行Region的迁移，HBase与Balance的命令，在这里不建议使用自动的balance，因为balance主要的问题是不会根据表来进行balance，HBase的balance只会根据RS的上的region数量来进行balance，所以相同table的数据回集中到一起。--我们使用...

2019-07-11 19:37:07 1522

转载 HashMap--concurrentHashMap的一些知识搜集

目录HashMapConCurrentHashMap面试中经常会被问道：面试官：有了解HashMap吗，讲一下HashMap吧~我：呃呃呃~是这样的，balabalbala~搜集了网上的一些资料，估计也不全，大致也能说明白这个道理，(仅作为面试参考)：这个事情要从JDK的版本更新说起，话说现在，风云跌宕，大家都讲：我们支持的JDK版本最低为1.8~好，这就是...

2019-07-11 13:51:38 198

原创 Pulsar初入门（一）

目录简介:架构：一、Messaging Concepts(消息概念)Producer模式：压缩：BatchingConsumer模式：client：ack死信主题：topics：namespace订阅模式：独占：故障转移：共享：Key_shared多topic订阅分区主题：路由模式：订购保证：mes...

2019-07-06 21:07:26 4226

转载 Spark算法初入门-逻辑回归篇3

目录逻辑回归：二项逻辑回归：多项逻辑回归：原文参考Apache Spark官方网站http://spark.apache.org/docs/2.2.0/ml-classification-regression.html#logistic-regression逻辑回归：逻辑回归是预测分类相应的常用方法。广义线性回归的一个特例是预测结果的概率。在spark.ml逻辑回归中，...

2019-07-05 18:34:26 1047

转载 ClickHouse初入门

目录什么是ClickHouse：OLAP场景得关键属性：ClickHouse的独特功能：1.真正面向列的DBMS，2.数据压缩3，数据磁盘存储4，多个核心的并行处理5，多个服务器上多的分布式处理6，SQL支持7，矢量引擎8，实时数据更新9，索引10，适合在线查询11，支持近似计算12，数据复制和数据完整性支持ClickHouse的...

2019-07-04 14:59:11 853

转载 Impala初入门

目录什么是Impala：Impala的优点：Impala的功能：参考Impala-中文文档-http://www.dba.cn/book/impala/IMPALAJiaoCheng/IMPALAGaiShu.html什么是Impala：Impala 是用于存储在Hadoop集群中的大量数据的MPP（大规模并行处理）sql查询引擎。换句话说，Impala是性能最...

2019-07-03 18:16:18 242

转载 Kudu初入门

目录介绍：基础架构：关于Tablet：Kudu与Impala集成安装Kudu配置Impala支持Kudu：使用案例：创建表：查询Impala中现有的Kudu表使用CREATE TABLE AS SELECT语句查询Impala中的任何其他表或来创建表：不支持Kudu表的Impala关键字：将数据插入Kudu表：参考—Apache-kudu官网-h...

2019-07-03 17:35:47 712

转载 Druid初入门-应用/加载数据

目录概述：Druid有什么作用：Druid如何工作：Druid常见应用领域：什么时候我该使用Druid：构建：Druid的进程和服务器使用:加载数据：使用数据加载器加载数据使用规范加载数据（通过控制台）使用规范加载数据（命令行）不使用脚本加载数据清理：参考：Hortonworks官方文档-https://hortonworks.com/...

2019-07-03 11:27:45 965

转载 Spark算法初入门-KMeans篇

目录聚类：K-Means：依赖分析补充知识：关于本地向量(Local Vector)高斯混合-Gaussian mixture聚类：聚类是一种无监督的学习。聚类常用于探索性分析或作为分层监督学习管道的组成部分。我们在画像系统中对用户分群用到了KMeans。K-Means：K-means是最常见的聚类算法之一，它将数据点聚类为预定义数量的聚类。该spar...

2019-07-02 20:42:38 845

转载 DataX初入门

目录关系型数据库拉取到Hive：mongo到hiveSqoop存在局限性，只能在关系型数据库到hadoop(Hive)之间导数据，如果有noSql的场景怎么解决？我们用阿里开源的产品DataX来解决。目前开源版本为dataX3。进入阿里github仓库拉取源码进行编译：注意匹配java和python版本问题。我这里快速入门以官方给好的tar为例进行阐述。-->前面的页...

2019-07-01 19:58:00 1284

转载 Flink初入门-状态

目录状态运行：被Keys化状态和算子状态：算子状态;原始和托管状态：Keys化使用托管状态：状态运行：本文档介绍了在开发应用程序时如何使用Flink的状态抽象。被Keys化状态和算子状态：Flink有两种基本的状态：Keyed State和Operator State。被Keys化状态：被Keys化状态始终与键相关，只能在a上的函数和算子中使用Ke...

2019-06-29 23:55:02 204

转载 Flink初入门-容错处理

目录检查点：启用和配置检查点：相关的配置选项：选择状态后台：迭代作业中的状态检查点：重启策略：检查点：检查点通过允许恢复状态和相应的流位置使Flink中的状态容错，从而为引用程序提供无故障执行相同的语义。--Flink中每个函数和运算符都是有状态的(有关详细信息，请参阅state)。有状态函数在各个元素/事件处理中存储数据，使状态成为任何类型的复杂操作的关...

2019-06-29 22:46:20 191

转载 Flink初入门-API使用(补)

目录数据存储/接收器迭代：执行参数：容错：控制延迟：数据存储/接收器数据接收器使用DataStream将他们转发到文件，socket，外部系统或者打印他们。Flink带有各种被指的输出格式，这些格式封装再DataStream上的算子操作后面：writeAsText() / TextOutputFormat -按字符串顺序写入数据元。通过调用每个数据元的toStr...

2019-06-28 22:34:07 436

转载 Flink初入门-API使用

简单的wordCount就不再演示了，可以移步官网-https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/local_setup.htmlFlink的程序每个程序包含相同的基本部分如下：1.获得一个execution environment2.加载/创建初始数据，3.执行此数据的转换，4.指定...

2019-06-27 16:47:43 470

转载 Flink初入门-运行时环境

Flink1.7官网文档翻译 -原创-flink.sojb.cn目录任务和算子链TaskManager，JobManager，客户端任务槽和资源状态后台SavePoint任务和算子链对于分布式执行，Flink链算子任务一起放入任务。每个任务由一个线程执行。将算子链接到任务中是一项有用的优化：它可以Reduce线程到线程切换和缓冲多的开销，并在降低延迟的...

2019-06-27 14:24:30 205

转载 Flink初入门-应用场景

一、Flink简介Apache Flink®- Stateful Computations over Data Streams上面是官网的介绍，翻译过来是流数据上的有状态的计算。-Flink执行模型：1.流计算：数据不断产生，一致处于计算状态2.批处理：完成一定时间段的计算任务官网给的有中文网站链接，github上面也有很多开源的翻译~https://flink.apac...

2019-06-27 11:40:13 642

原创 Centos 6.7最小版安装AzKaban

首先，是要安装git的已安装直接掉过本节：1、下载git源码包wget https://github.com/git/git/archive/v2.3.0.zip之后，解压，进入解压目录。在进行下一步操作之前，要思考一个问题，系统安装过git没有，话说yum里面带的是1.7.0的，版本不太符合。首先git --version有1.7则remove 没有接着操作。开始编译–安装在...

2019-05-04 22:57:54 251

转载全网搜集面食题系列专题(Redis篇)

网络搜集整理，有些匆忙，未整理出处，请见谅。因作者水平有限，文中不当之处，烦请批评指证~redis宕机如何解决？如果是项目上线的宕机呢？宕机：服务器停止服务如果只有一台redis，肯定会造成数据丢失，无法挽救多台redis或者是redis集群，宕机则需要分为在主从模式下区分来看：slave从redis宕机配置主从复制的时候才配置从的redis，从的会从主的redis中读取主的redi...

2019-03-09 10:29:05 300

原创记一次storm启动报错。。

怎么错的呢。以为是Kafka broker挂了，又重启Kafka，不管用，又是重启storm集群，也不行，一遍debug一遍百度，最后发现是代码问题，集群模式和本地模式的执行方法是不一样的(丢人呐)，如下。这个pom文件的这里也得注释掉！...

2019-02-23 21:42:35 236

原创在更新一波练习

1.Redis数据库用到了哪几种数据结构及各种数据结构的应用场景这位小哥写的不错-By-心跳的旋律ing-Title-redis5种数据结构讲解及使用场景-传送门1.String类型2.Hash类型3.List类型4.Set类型5.Sortedset2.ElasticSearch中有什么情情况下会出现脑裂，怎样有效避免脑裂？原因有两个:网络质量不好或mstaer节点负载过高1....

2019-01-18 17:59:16 160

转载关于Elasticsearch

1． Java语言全文检索技术简介什么是lucene？Lucene是一套 “全文检索” 编程API ，基于Lucene对数据建立索引，进行查询。很多框架对lucene进行了封装。什么是ElasticSearch ?现在企业开发中，更常用是的solr搜索服务器和ElasticSearch搜索服务器如果大家使用过 Apache Lucene 或 Apache Solr，就会知道它们的使...

2019-01-15 20:29:22 152

1.spark Streaming是spark Core API 的扩展，它支持弹性的，高吞吐的，容错的实时数据流的处理，数据可以通过多种数据原获取，例如Kafka，fume，kinesis以及TCP sockets，也可以通过map，reduce，join，window等高级函数组成的复杂算法处理，最总，处理后的数据可以输出到文件系统，数据库以及实时仪表盘中，事实上，你还可以在data stre...

2019-01-09 22:16:02 219

转载 kafka简单理解

1.Kafka是什么：在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDIS Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该...

2019-01-09 19:30:49 1004

转载简单了解下JMS

JMS是什么：JMS是Java提供的一套技术规范JMS干什么用：用来异构系统集成通信，缓解系统瓶颈，提高系统的伸缩性增强系统用户体验，使得系统模块化和组件化变得可行并更加灵活通过什么方式：生产消费者模式（生产者、服务器、消费者）2.1JMS消息传输模型 点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中...

2019-01-09 17:51:46 201

原创静下心来学spark05

最近几篇写spark的文章若无特殊说明均基于spark2.0版本1.在SparkSQL中使用自定义UDF 统计字符串长度package com.qf.gp15.day07import org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 自定义UDF * 需求：...

2019-01-09 00:21:11 152

原创静下心来学spark04

1.spark的两种类型的共享变量：累加器(accumulator)与广播变量(broadcast variable)，累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。今天分析下累加器(accumulator):提供了将工作节点中的值聚合到驱动器程序中的简单语法。比如需要对Driver端的某个变量做累加操作，累加说的是，数值的相加或者字符串的拼接。如果直接用foreach是实现不...

2019-01-08 00:08:21 196

原创静下心来学spark03

1.什么是Thrift 看了百科Thrift是一个跨语言的服务部署框架，最初由Facebook于2007年开发，2008年进入Apache开源项目。Thrift通过IDL（Interface Definition Language，接口定义语言）来定义RPC（Remote Procedure Call，远程过程调用）的接口和数据类型，然后通过thrift编译器生成不同语言的代码（目前支持C+...

2019-01-06 19:28:26 1026 2

原创记一次练习总结

1，列出至少5个会发生shuffle的算子去重def distinct()def distinct(numPartitions:Int)聚合def reduceByKey(func: (V, V) =&amp;gt; V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Partitioner, func: (V, V...

2019-01-05 22:20:01 218

原创 spark常见RDD练习

Spark 常用RDD练习其实还是推荐这个网站，写的很棒，点我一、Transformation1 map Applies a transformation function on each item of the RDD and returns the result as a new RDD. (返回一个新的RDD，该RDD有每一个输入元素经过func函数转换后组成)def map[...

2019-01-04 21:18:48 2190

原创静下心来学spark01

算子练习总结文档发生shuffle的算子：1.去重 distinct /** * Return a new RDD containing the distinct elements in this RDD. */ def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withS...

2019-01-04 21:14:30 178

原创静下心来学spark02

RDD的类型总结Spark中的RDD(Resilient Distributed Dataset)就是弹性分布式数据集，是Spark中基本的数据抽象。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点。创建RDD的两种方式：读取一个外部数据集，或者在驱动器里面分发驱动器程序中的对象集合。(在任何时候都能够进行重算是我们为什么把RDD描述为"弹性"的原因--来自Spark快速大数据分析 p...

2019-01-04 21:08:17 153

翻译 scala入门练习二

作业一：package day03class Student(var name:String,var id:Long) {}反编译之后的结果：// Decompiled Using: FrontEnd Plus v2.03 and the JAD Engine// Available From: http://www.reflections.ath.cx// Decompile...

2018-11-21 21:56:44 191

翻译 scala入门练习题一

作业一： val list0=List(1,7,9,8,0,3,5,4,6,2) val list1=list0.map((x)=>{x*10}) val list2=list0.filter((x)=>{x%2==0}) val list3=list0.sortWith((x,y)=>{x>y}) list0.sorted...

2018-11-20 19:16:04 3134 2

原创 getSplits源码分析

/** Splits files returned by {@link #listStatus(JobConf)} when * they're too big.*/ //numSplits：来自job.getNumMapTasks()，即在job启动时用org.apache.hadoop.mapred.JobConf.setNumMapTasks(int n)设置的值，给M-R框架的M...

2018-11-01 17:59:22 401

翻译 RAID 0 RAID 1 RAID 10 RAID5分析

RAID 0:RAID 0：连续以位或字节为单位分割数据，并行读/写于多个磁盘上，因此具有很高的数据传输率，但它没有数据冗余，因此并不能算是真正的RAID 结构。 RAID 0 只是单纯地提高性能，并没有为数据的可靠性提供保证，而且其中的一个磁盘失效将影响到所有数据。因此，RAID 0 不能应用于数据安全性要求高的场合.RAID 1RAID 1：它是通过磁盘数据镜像实现数据冗余，在成对...

2018-10-22 12:40:00 172

原创解决wordpress安装插件时提示上传问价的尺寸超过php.ini中定义的upload_max_filesize值的问题(已解决)

解决wordpress安装插件时提示上传问价的尺寸超过php.ini中定义的upload_max_filesize值的问题想使用markdown插件时文章排版更好,但是ftp服务器不会配置,主要用的是云服务器,不是web服务器哈哈.解决办法是直接vi /etc/php.ini用 /upload_max_filesize 直接定位到该行修改默认的2M 为比自己zip包大的数,重启机器....

2018-10-15 21:14:09 3620

原创 centos7安装docker最新入门

first 验证内核uname -r 查看内核版本是否高于3.10 笔者的测试机器为3.10.0-862.el7.x86_64第一个警告切勿在没有配置docker yum' 源的情况下直接使用yum命令安装docker由于centos刚好满足最低内核的要求但是内核版本较低,部分功能(如 overlay2存储层驱动) 无法使用,,并且部分功能不稳定开始安装卸载旧版本$ sudo...

2018-10-14 18:53:38 270

json文件-包括employee-employee2-department

安卓期末课程设计之个人理财通

空空如也