自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (9)
  • 收藏
  • 关注

原创 第五章 Yarn资源调度器

Yarn资源调度器简介

2022-06-16 16:23:46 530 1

原创 第四章 Hadoop数据压缩

hadoop压缩

2022-06-16 15:02:29 658

原创 第三章 MapReduce框架原理

MapReduce框架原理

2022-06-14 15:35:25 1398

原创 第二章 Hadoop序列化

Hadoop序列化

2022-06-10 16:09:06 153

原创 第一章 MapReduce概述

MapReduce概述

2022-06-10 15:31:33 340

原创 Hadoop概述

Hadoop概述

2022-06-10 10:32:51 650

原创 第8章 HDFS HA高可用

HDFS HA高可用

2022-06-09 17:42:15 364

原创 第7章 HDFS 2.X新特性

HDFS新特性

2022-06-07 15:44:55 298

原创 第6章 DataNode

HDFS DataNode工作机制

2022-06-02 17:53:25 530

原创 第5章 NameNode和SecondaryNameNode

NameNode和SecondaryNameNode工作机制详解

2022-06-02 10:24:32 1032

原创 第4章 HDFS读写数据流

HDFS 读写数据流程

2022-06-01 16:46:05 121

原创 第3章 HDFS客户端操作

HDFS客户端操作

2022-06-01 16:17:37 367

原创 第2章 HFDS的Shell操作

HDFS Shell命令

2022-06-01 16:04:31 253

原创 第1章 HDFS概述

HDFS概述,适用场景

2022-06-01 15:23:02 295

原创 第9章 Kafka其它知识点

kafka其它知识点

2022-05-31 21:48:10 143

原创 第8章 KafkaConsumer重置offset

KafkaConsumer重置offset

2022-05-31 21:20:43 2268 1

原创 第7章 __consumer_offsets topic

kafka __consumer_offsets topic

2022-05-31 21:05:08 411

原创 第6章 Rebalance详解

kafka rebalance详解

2022-05-31 20:49:11 3165

原创 第5章 消费者组详解

kafka消费者组详解

2022-05-31 17:42:12 723

原创 第4章 Kafka工作机制详解

kafka工作机制详解

2022-05-31 17:26:08 677

原创 第3章 Kafka API

kafka生产者和消费者API

2022-05-31 16:03:07 191

原创 第二章 Kafka架构原理

kafka架构原理与核心知识

2022-05-30 10:02:13 977

原创 第一章 概论和综述

1.1 消息系统消息系统是将数据从一个应用传输到另一个应用中,使应用可以专注于数据内容,不必关心传输问题。常见消息系统有点对点消息系统、发布-订阅消息系统。点对点模式(一对一,消费者主动拉取数据,消息收到后清除消息),点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息只能被一个接收者处理,即使有多个消息监听者也是如此。发布/订阅模式(一对多,数据生产后,推送给所有订阅者)发布订阅模型则是一个基于推送的消息传送模

2022-05-27 17:17:51 154

原创 search template

定义search template使用_scripts将模板存储在集群状态中。在 search template中使用的语言叫做 mustache。POST _scripts/my_search_template{ "script": { "lang": "mustache", "source": { "query": { "match": { "{{my_field}}": "{{my_value}}" }

2021-07-20 14:37:10 343

原创 java low level rest client

基于http的客户端rest client,官网给出的restclient有java low level rest client和java hight level rest client,前者兼容所有版本的es,后者是基于前者开发的,只暴露了部分api添加依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-clie

2021-07-20 14:33:00 763

原创 index alias

index alias建立indexPUT twitter/_doc/1{ "user" : "双榆树-张三", "message" : "今儿天气不错啊,出去转转去", "uid" : 2, "age" : 20, "city" : "北京", "province" : "北京", "country" : "中国", "address" : "中国北京市海淀区", "location" : { "lat" : "39.970718", "lon"

2021-07-20 14:31:43 343

原创 Elasticsearch Java-RestHighLevelClient案例

Maven配置<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.8.1</version></dependency><dependency> <gr

2021-07-20 14:30:20 270

原创 alias数据类型

alias数据类型在使用alias时,字段别名的目标有一些限制:它必须是一个具体的字段(不是一个对象或者是另外一个alias)它必须在alias被创建时已经存在如果是一个nested的对象,那么alias必须具有和它的目标具有同样的nested scope案例1PUT trips{ "mappings": { "properties": { "distance": { "type": "long" }, "route_leng

2021-07-20 14:28:14 485

原创 (过时)TransportClient方式连接ES

依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>transport</artifactId> <version>7.6.2</version></dependency>获取Clientimport org.elasticsearch.client.transport.TransportC

2021-07-20 14:27:05 1336

转载 Dynamic mapping

简介自动检测和添加新字段称为动态映射。 动态映射规则可以根据你的目的进行定制动态字段映射:管理动态 field 检测的规则动态模板:用于配置动态添加字段的映射的自定义规则动态模板适用场景在映射定义时未知的动态字段名称的文档nested 的 key/value 对语法"dynamic_templates": [ { "my_template_name": { (1) ... match conditions ... (2)

2021-07-20 14:22:44 164

原创 IDEA常用快捷键

ctrl快捷键Ctrl + F 在当前文件进行文本查找 (必备)Ctrl + R 在当前文件进行文本替换 (必备)Ctrl + Z 撤销 (必备)Ctrl + Y 删除光标所在行 或 删除选中的行 (必备)Ctrl + X 剪切光标所在行 或 剪切选择内容Ctrl + C 复制光标所在行 或 复制选择内容Ctrl + D 复制光标所在行 或 复制选择内容,并把复制内容插入光标位置下面 (必备)Ctrl + W 递进式选择代码块。可选中光标所在的

2021-07-20 11:22:07 156

原创 index template

index template作用Index template 在创建新 index 时可以自动应用的 settings 和 mappings。 Elasticsearch 根据与 index 名称匹配的 index 模式将模板应用于新索引。Index template 仅在 index 创建期间应用。 对 index template 的更改不会影响现有索引。 create index API 请求中指定的设置和映射会覆盖索引模板中指定的任何设置或映射。定义一个templatePUT /_temp

2021-07-14 16:16:44 794

转载 理解mapping中的store属性

store属性作用默认情况下,对字段值进行索引以使其可搜索,但不存储它们 (store)。 这意味着可以查询该字段,但是无法检索原始字段值。如果一个字段的 mapping 中含有 store 属性为 true,那么有一个单独的存储空间为这个字段做存储,而且这个存储是独立于 _source 的存储的。它具有更快的查询。存储该字段会占用磁盘空间。如果需要从文档中提取(即在脚本中使用和聚合),它会帮助减少计算。在聚合时,具有store属性的字段会比不具有这个属性的字段快。 此选项的可能值为 false 和 t

2021-07-14 11:06:30 270

原创 Elasticsearch:inverted index,doc_values 及 source

inverted index如果不想为字段建立inverted index,可以通过mapping对user进行如下设置"user": { "type": "object", "enabled": false}这个字段将不被建立索引,同时也不会建立 doc values。这个字段将不能被用于搜索和做聚合。如果使用这个字段进行搜索的话,不会产生任何的结果。如果对这个文档进行查询,会查询到信息GET twitter/_doc/1显然 user 的信息是存放于 source 里的,只

2021-07-14 10:37:26 291

原创 Cloudera Manager 5.14.X 安装部署(下)

后续操作可登录WEB界面进行操作,由于比较简单,有时间再更新;

2020-09-04 17:14:35 92

原创 Cloudera Manager 5.14.X 安装部署(中)

安装Server和Agent方式一(path A installer-采用嵌入式PostgreSQL数据库)前置条件:(CM集群每个节点都要实现)​ 1)修改系统文件句柄数;​ 2)修改swap交换区空间;​ 3)禁用hugepage透明大页;​ 4)关闭防火墙和selinux;​ 5)修改主机名和映射文件;​ 6)实现免秘钥登录;​ 7)搭建共享源;​ 8)配置好ntp时间同步服务;​ 9)安装JDK;1. 安装CM Agent

2020-09-04 16:50:36 499

原创 Cloudera Manager 5.14.X 安装部署(上)

1. 安装部署CM注意事项服务器的IP地址为静态IP;系统根目录至少50G;主机名建议统一小写;python版本为2.7.X;使用root用户安装,或者具有sudo权限的其他用户。所需软件列表软件名称版本CentOS7.4或7.5Cloudera Manager5.15.XCDH5.15.X(与上面版本同步)JDK1.8.XMYSQL数据库5.7.16MYSQL的JDBC驱动5.1.46Python2.7.X注意:

2020-09-04 16:28:29 214

原创 livy安装与部署

livy安装部署有两种方式:直接下载Apache社区编译好的zip包安装部署,或者下载源码进行编译安装;本文采用Apache社区编译好的zip进行安装部署。前提: 已经安装部署好CDH集群,版本为5.14.0将livy安装包解压到/opt/cloudera目录下[root@cdh001 ~]# ls /opt/cloudera/apache-livy-0.7.0-incubating-bin csd parcel-cache parcel-repo parcels创建livy用户、

2020-08-16 16:34:33 3122

原创 CDH5.14.0集群安装Anaconda2

需求: 在CDH5.14.0集群部署Anaconda2下载Anaconda2的parcel包https://repo.continuum.io/pkgs/misc/parcels/archive/Anaconda-4.2.0-el7.parcelhttps://repo.continuum.io/pkgs/misc/parcels/archive/Anaconda-4.2.0-el7.parcel.shahttps://repo.continuum.io/pkgs/misc/parcels/ar

2020-07-30 11:15:03 290

原创 CDH集群部署Spark2.1.0

需求: 在CDH5.14.0集群上部署Spark2.1.0下载parcel包http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera4/SPARK2-2.1.0.cloudera4-1.cdh5.13.3.p0.818552-el7.parcelhttp://archive.cloudera.com/spark2/parcels/2.1.0.cloudera4/SPARK2-2.1.0.cloudera4-1.cdh5.13.3.p0.81

2020-07-30 11:03:58 429

信息系统项目管理【2005-2016】教程和试题

信息系统项目管理的考试真题和教程,涵盖了从2005-2016年的所有资料,绝对物超所值。

2018-04-20

机器学习实现量化投资

本书为国外非常流行且受欢迎的一本书,讲述了用机器学习方法实现量化投资,并且附有python源代码,值得好好学习一下。

2018-03-21

阿里java开发代码规范插件(IDEA+ECLIPSE)

最新版阿里java开发手册规范检测插件,对java代码的规范化具有非常大的帮助。

2018-03-21

数据仓库—维度建模

此书翻译于国外经典全为教材、通俗易懂、知识体系完善、案例丰富、循序渐进、适合初学者适用。

2018-02-02

利用Python分析与挖掘数据

本书主要讲述了怎样利用python进行数据分析,包括利用第三方python库numpy进行高效的线性代数运算,利用pandas对数据进行预处理和进行时间序列处理,以及数据分析的前期处理—数据清洗、转换等,最后讲解了python在处理金融方面数据的应用,本书注重基础知识与实践操作结合,是一本不错的入门书籍。

2017-12-22

Python数据分析基础教程:Numpy学习指南第二版配套源码及数据集

本资源为“Python数据分析基础教程:Numpy学习指南“第二版配套源码及数据集。

2017-11-27

机器学习系统设计

如今,机器学习正在互联网上下掀起热潮,而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言,它支持快速探索和实验,并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色,就是结合实例分析教会读者如何通过机器学习解决实际问题。, 本书将向读者展示如何从原始数据中发现模式,首先从Python与机器学习的关系讲起,再介绍一些库,然后就开始基于数据集进行比较正式的项目开发了,涉及建模、推荐及改进,以及声音与图像处理。通过流行的开源库,我们可以掌握如何高效处理文本、图片和声音。同时,读者也能掌握如何评估、比较和选择适用的机器学习技术。, 举几个例子,我们会介绍怎么把StackOverflow的回答按质量高低进行分类,怎么知道某个音乐文件是爵士风格,还是重金属摇滚风格。另外,本书还涵盖了主题建模、购物习性分析及云计算等高级内容。总之,通过学习本书,读者可以掌握构建自己所需系统的各方面知识,并且学以致用,解决自己面临的现实问题。, 读者只要具有一定的Python编程经验,能够自己安装和使用开源库,就足够了,即使对机器学习一点了解都没有也没关系。本书不会讲机器学习算法背后的数学。

2017-11-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除