自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

林夕

我想把西瓜最中间的一口留给你,这就是我对你的心意

转载 kafka深度解析

背景介绍 Kafka简介   Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输 支持Kafk...

2019-08-28 13:48:50 130 0

原创 linux命令大全

系统信息 arch 显示机器的处理器架构 uname -m 显示机器的处理器架构 uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/s...

2019-08-22 16:49:24 89 0

原创 HBase 性能优化

1. 修改Linux最大文件数 Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行 查看: ulimit -a 结果:open files (-n) 1024 临时修改:...

2019-08-14 17:51:13 75 0

原创 安装postgresql 数据库命令详解

安装postgresql步骤: 1、yum install https://download.postgresql.org/pub/repos/yum/9.5/redhat/rhel-7-x86_64/pgdg-centos95-9.5-2.noarch.rpm 2、yum install p...

2019-08-14 17:41:01 91 0

原创 shell 入门

shell入门 1. 概述 1.1. 简介 Shell Script ,Shell脚本与Windows/Dos下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比Windows下的批处理更强大,比用其他编程程序编...

2019-08-14 17:39:45 51 0

原创 awk命令详解

简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般...

2019-08-14 17:37:08 70 0

原创 如何制作yum本地源

CentOS-6.7-x86_64-bin-DVD1.iso 完整版的安装盘 CentOS-6.7-x86_64-bin-DVD2.iso 对完整版安装盘的软件进行补充和升级。 1、上传好cd1;cd2镜像文件后,先创建一个文件夹 比如 mkdir iso 2、挂载上传的镜像文件至创建的...

2019-08-14 17:35:05 300 0

原创 Zookeeper详解

zookeeper 02/ 分布式系统中协调服务的必要性 在线感知 1/所有服务节点,上线时,先去zookeeper上注册一个子节点 2/“服务请求者”,监听父节点 3/当有新的服务节点加入,或者有旧的服务节点掉线, “服务请求者”就能收到通知,就可以去zookeeper上查看最新的...

2019-08-14 17:31:44 104 0

原创 hive 常用运算

hive 常用运算 第一部分:关系运算 Hive支持的关系运算符 •常见的关系运算符 •等值比较: = •不等值比较: <> •小于比较: < •小于等于比较: <= •大于比较: > •大于等于比较: >= •空值判断: IS NULL ...

2019-08-14 17:24:57 232 0

转载 sftp常用命令介绍

某linux系统中有test.cap, 现在, 我需要把它移动到PC上, 然后用wireshark进行分析。 怎么移动呢? 没有什么samba啊, 不支持ftp啊, 也不支持tftp啊。 用sftp吧。 在PC上开启sftp服务器(下载一个sftpserver.exe)即可。 让linux系统充当...

2019-08-14 15:20:09 426 0

原创 Django框架详解(更新中......)

Django 软件框架 一个公司是由公司中的各部部门来组成的,每一个部门拥有特定的职能,部门与部门之间通过相互的配合来完成让公司运转起来。 一个软件框架是由其中各个软件模块组成的,每一个模块都有特定的功能,模块与模块之间通过相互配合来完成软件的开发。 软件框架是针对某一类软件设计问题而产...

2019-08-09 10:47:01 188 0

原创 机器学习之kmeans聚类算法及应用

1. Kmeans聚类算法原理 1.1 概述 K-means算法是集简单和经典于一身的基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 1.2 算法图示 假设...

2019-08-08 11:12:15 132 0

原创 机器学习之协同过滤推荐算法及应用

1. CF协同过滤推荐算法原理 1.1 概述 什么是协同过滤 (Collaborative Filtering, 简称 CF)? 首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做? 大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口...

2019-08-08 11:12:05 87 0

原创 机器学习之决策树算法应用以及分类

1. 决策树分类算法原理 1.1 概述 决策树(decision tree)——是一种被广泛使用的分类算法。 相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置 在实际应用中,对于探测式的知识发现,决策树更加适用 1.2 算法思想 通俗来说,决策树分类的思想类似于...

2019-08-08 11:11:52 70 0

原创 机器学习之lineage回归分类算法及应用

1. Lineage逻辑回归分类算法 1.1 概述 Lineage逻辑回归是一种简单而又效果不错的分类算法 什么是回归:比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非线性),就是回归。我们通过大量的数据找出这条线...

2019-08-08 11:11:28 79 0

转载 75道面试逻辑智力测试题内附详细答案

【1】假设有一个池塘,里面有无穷多的水。现有2个空水壶,容积分别为5升和6升。问题是如何只用这2个水壶从池塘里取得3升的水。 由满6向空5倒,剩1升,把这1升倒5里,然后6剩满,倒5里面,由于5里面有1升水,因此6只能向5倒4升水,然后将6剩余的2升,倒入空的5里面,再灌满6向5里倒3升,剩余...

2019-08-08 11:10:03 91 0

原创 机器学习之贝叶斯算法及应用

1. 朴素贝叶斯分类算法原理 1.1 概述 贝叶斯分类算法是一大类分类算法的总称 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据 朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种 注:朴素的意思是条件概率独立性 1.2 算法思想 朴素贝叶斯的思想是这样的: 如果一个事物在...

2019-08-07 14:56:39 81 0

原创 机器学习之knn分类算及应用

1. KNN分类算法原理 1.1 概述 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 KNN算法的指导思想是“近朱者赤,近墨者黑”,由你的邻居来推断出你的类别。 本质上,KNN算法就是用距离来衡量样本之间的相似度 1.2 算法图示 从训练集中...

2019-08-07 14:53:06 118 0

原创 机器学习之python语言与numpy库

1 Python快速上手 1.1.Python简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。 Python是一种解释型语言...

2019-08-07 14:45:35 40 0

原创 机器学习之python数据类型详解

python数据类型详解 目录 1、字符串 2、布尔类型 3、整数 4、浮点数 5、数字 6、列表 7、元组 8、字典 9、日期 1、字符串 1.1、如何在Python中使用字符串 a、使用单引号(') 用单引号括起来表示字符串,例如: str=...

2019-08-07 14:37:23 91 0

原创 Linux下导入dmp文件进oracle数据库

一.导入exp导出的.dmp文件 Linux环境下导入oracle备份数据.dmp文件 切换至oracle用户下。 2.[oracle@mophee ~]$ imp Import: Release 11.2.0.1.0 - Production on Fri Jun 29 22:47:10 ...

2019-08-07 14:24:55 1067 0

原创 Linux系统下开启FTP文件上传服务

Linux开启FTP文件上传服务 一:环境介绍: Linux操作系统:Centos6.5 二:安装步骤: 查看是否安装vsftpdrpm -qa|grep vsftpd 2.执行以下安装命令yum install vsftpd 3.设置开机启动服务chkconfig vsftpd on...

2019-08-07 14:20:32 134 0

原创 SpingCloud介绍

Spring Cloud介绍 Spring Cloud是一个基于Spring Boot的快速构建分布式系统的工具集。将Spring Boot开发单个微服务整合在一起。在微服务架构中,需要几个关键的组件,服务注册与发现、服务消费、负载均衡、断路器、智能路由、配置管理等。 1、Eureka...

2019-08-07 13:56:40 39 0

转载 Elasticsearch+Hbase实现海量数据秒回查询

我今天分享的是通过ElasticSearch与hbase进行整合的一个搜索案例,这个案例涉及的技术面比较广,首先你得有JAVAEE的基础,要会SSM,而且还要会大数据中的hdfs、zookeeper、hbase以及ElasticSearch和kibana。环境部署在4台centos7上。主机名为n...

2019-08-07 10:42:54 639 0

原创 Kafka面试总结(持续更新中......)

# kafka分区数的确定 ## 1、kafka分区 * Kafka可以将主题划分为多个分区(Partition),会根据分区规则选择把消息存储到哪个分区中,只要如果分区规则设置的合理,那么所有的消息将会被均匀的分布到不同的分区中,这样就实现了负载均衡和水平扩展。 ## 2、各角色对分区的操...

2019-08-07 10:16:42 276 0

原创 Spark面试问题整理(持续更新中......)

Spark应用转换流程 1、spark应用提交后,经历了一系列的转换,最后成为task在每个节点上执行 2、RDD的Action算子触发Job的提交,生成RDD DAG 3、由DAGScheduler将RDD DAG转化为Stage DAG,每个Stage中产生相应的Ta...

2019-08-07 09:22:25 3743 2

原创 Spark计算引擎之SparkStreaming详解

Spark Streaming流式处理 1. Spark Streaming介绍 1.1 Spark Streaming概述 1.1.1什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark...

2019-08-06 17:06:41 82 0

原创 Spark计算引擎之SparkSQL详解

一、Spark SQL 二、Spark SQL 1.Spark SQL概述 1.1.Spark SQL的前世今生 Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Sha...

2019-08-06 16:44:48 8162 0

原创 Spark运行机制详解

一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext ...

2019-08-06 16:26:48 66 0

原创 Spark计算引擎RDD详解

一、Spark计算模型RDD 二、 弹性分布式数据集RDD 2. RDD概述 2.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据...

2019-08-06 16:21:07 108 0

原创 Spark基础教程以及内核解析

Spark Spark的四大组件:SparkSqL,SparkStreaming,SparkMLlib,SparkGraphx 基本概念:Spark是一种快速、通用的、可扩展的大数据分析引擎;是基于内存的分布式并行计算的大数据计算框架。 为什么学习Saprk Spark是一个开源的类似于...

2019-08-06 16:05:08 71 0

转载 用于实时大数据处理的Lambda架构

用于实时大数据处理的Lambda架构 原文地址:https://blog.csdn.net/brucesea/article/details/45937875 1.Lambda架构背景介绍 Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Tw...

2018-10-10 10:52:29 2000 0

转载 hbase数据库详解

本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。 不过在此之前,你可以先了解 Hadoop生态系统 ,若想运行HBase,则需要先搭建好Hadoop集群环境,...

2018-08-10 13:52:30 13813 1

原创 Docker安装以及原理详解

Docker docker简介 1.1虚拟化 1.1.1什么是虚拟化 在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式...

2018-07-17 14:14:06 14323 0

原创 linux系统下安装oracle详解

本文档采用centos 6.x下静默安装Oracle 11g R2硬件要求:物理内存不少于1G硬盘可用空间不少于5Gswap分区空间不少于2G一.设置系统(root用户下) #vi /etc/redhat-release//操作系统,系统只支持Red Hat Enterprise Linux 6,...

2018-07-13 15:55:46 224 0

原创 Sqoop导入导出

Sqoop 导入“导入工具”导入单个表从 RDBMS 到 HDFS。表中的每一行被视为 HDFS 的记录。所有记录都存储为文本文件的文本数据(或者 Avro、sequence 文件等二进制数据)。下面的语法用于将数据导入 HDFS。$ sqoop import (generic-args) (im...

2018-07-11 16:31:20 266 0

原创 ElasticSearch简单入门案例

1、原生操作使用 Xput创建索引说明:RESTful接口URL的格式:http://localhost:9200/&lt;index&gt;/&lt;type&gt;/[&lt;id&gt;]其中index、type是必须提供的。id是可选的,不提...

2018-07-11 16:27:32 2967 0

原创 ambari2.6.2安装详解

一、环境准备1、准备三台机器centos6.5Server:node-1(192.168.80.137)Agent:node-2(192.168.80.138),node-3(192.168.80.139)注:以下操作如无特殊说明,均需在3台机器上进行 2、设置FQDN修改/etc/hosts文件...

2018-07-10 17:44:19 1492 0

原创 Oozie4.3.1安装指南详解

一、环境支持Oozie4.3.1Centos 6.5Java JDK 1.8Maven 3.5.4Hadoop2.7.4Pig0.17二、安装步骤详解Java的安装1、解压安装包tar -zxvf jdk-8u73-linux-x64.gz -C /export/service2、配置环境变量vi...

2018-07-09 19:44:16 1143 0

原创 Hadoop2.7.4安装部署详解

Hadoop集群安装文档一.安装步骤1 . 发行版本Hadoop 发行版本分为开源社区版和商业版,社区版是指由 Apache 软件基金会维护的版本,是官方维护的版本体系。商业版 Hadoop 是指由第三方商业公司在社区版 Hadoop 基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版...

2018-07-09 15:36:11 2525 0

提示
确定要删除当前文章?
取消 删除