自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(187)
  • 收藏
  • 关注

原创 启动azkaban报错

按照文档配置、启动,启动的时候报错,1、在bin下,启动./azkaban-web-start.sh报错Using Hadoop from /home/hadoop/hadoop-2.6.0Using Hive from./..:./../lib/azkaban-2.5.0.jar:./../lib/commons-collections-3.2.1.jar:./../lib/co...

2019-11-29 11:26:29 455

原创 开箱即用的性能分析工具pinpoint

pinpoint是开源在github上的一款APM监控工具,它是用Java编写的,用于大规模分布式系统监控,属于分布式调用链监控组件。 它主要的特点是开箱即用、完备的Web界面,对性能影响较小,无侵入式安装探针,小团队懒人的必备佳品。 官网:https://github.com/naver/pinpoint 监...

2019-11-29 11:24:48 183

原创 HiveService2启动源码查看

目录1、问题2、解决(这里先放着,只作为记录)3、通过源码和日志排查过程———————————————————————————-1、问题:近期公司的HiveService2启动有点慢,需要10分钟.2、解决(这里先放着,只作为记录):原因:HiveServer2在启动的时候,需要在hivemetastore中建立一个物化视图,这就是cache.每次查询的时候,查询语句先要通过hivem...

2019-11-29 11:21:27 524

原创 Geotrellis学(踩)习(坑)笔记(三)——缓冲区分析

栅格数据的缓冲区分析主要可以分成两种,一种是先将矢量数据做缓冲区之后进行栅格化,另一种是直接将栅格数据进行缓冲区分析。下面是这两种方式的代码:将矢量数据先进行buffer再栅格化:def bufferPoints(): Unit ={ val extent:Extent =Extent(0, 0, 80, 80) val re =RasterExtent(extent, 1...

2019-11-29 11:18:52 2071

原创 hbase 2.0.1安装

机器环境是:zookeeper 3.4.12 和hbase 2.0.1。一、 zookeeper安装1. 解压tar zxf zookeeper-3.4.12.tar.gz -C /opt/modules/2. 修改配置cp conf/zoo_sample.cfg zoo.cfgmkdir zkDatavi zoo.cfgdataDir=/opt/modules/zookeeper...

2019-11-29 11:16:49 123

原创 HBase 客户端类型 (二)

3.Framework Clients---在更直接的网关客户端之后,现在要讨论第二类客户端,将它们统称为框架(framework)。这类客户端提供了更高级的抽象,一般使用 domain specificlanguage (DSL) 的形式。包括,例如 SQL, 关系数据库系统与外部客户端的混合用语(lingua franca),以及 MapReduce, 原始的处理框架,用于编写和执行长...

2019-11-29 11:14:26 247

原创 MapReduce的几个典型事例,全排序,倒排序

以下的几种实现,采用的是本地实现,并没有放在分布式上去运行,如果方分布式,打成Jar包即可1.全排序全排序的意思是在生成的所有结果文件中,Key是从小到大排序的,注意,不是局部有序(某一个输出文件Key有序)而是所有的输出文件,也就是说从第一个输出文件开始到最后一个输出文件,Key是从小到大排序的。实现方法: 1.定义1个reduce 2.自定义分区函数.自行设置分...

2019-11-29 11:11:53 839

原创 redis知识整理(二)redis之redis起步

(redis的特色-独特的键值对模型) 很多数据库只能处理一种数据结构: SQL数据库——表格 Memcached——键值对数据库,键和值都是字符串 文档数据库(CouchDB、MongoDB)——由JSON/BJSON组成的文档 一旦数据库提供的数据结构不适合去做某件事的话,程序写...

2019-11-29 11:02:28 53

原创 Hdfs节点的服役与退役

Hdfs节点的服役与退役也就是节点的新增与删除。其中退役也就是把节点放在黑名单里,并且从白名单中删除,服役就是在白名单中新加入节点 具体配置如下: 黑白名单的组合情况 ------------------------- include //dfs.include(白名单)...

2019-11-29 10:59:43 172

原创 Hadoop集群搭建

1.Hadoop集群的搭建的准备关闭防火墙centos防火墙操作[cnetos 6.5之前的版本]$>sudo service firewalld stop //停止服务$>sudo service firewalld start //启动服务$>sudo service firewalld status //查看状态[...

2019-11-29 10:57:05 111

原创 Hive建表,建分区表,建桶表,建视图

前面我们已经基本熟悉认识了Hive,下面我们就来讨论一下Hive的具体使用,包括完整语法建表,建分区,建桶,建视图以下所建立的表都是在mydb数据库创建的(在Hive的命令行下,直接use mydb;然后进行如下操作就可以)。1.Hive建表建表的完整语法如下: CREATE TABLE IF NOT EXISTS t2(id int,name string,age i...

2019-11-28 15:58:14 1091

原创 Zookeeper集群搭建,Hadoop集群搭建高可用

1.Zookeeper集群搭建在s10,s11,s12上搭建Zookeeper集群步骤如下:1.挑选3台主机 s10 ~ s12 2.每台机器都安装zk tar开 配置符号链接 $>ln -s zookeeper-3.4.9 zk 环境变量[/etc/profile] #z...

2019-11-28 15:54:34 218

原创 RowKey的设计规范,Hbase协处理器

1.RowKey的设计规范rowkey长度原则rowkey是一个二进制码流,可以是任意字符串,最大长度 64kb ,实际应用中一般为10-100bytes,以byte[] 形式保存,一般设计成定长。建议越短越好,不要超过16个字节,原因如下:目前操作系统都是64位系统,内存8字节对齐,控制在16个字节,8字节的整数倍利用了操作系统的最佳特性。rowkey散列原则如果r...

2019-11-28 15:51:03 91

原创 Hbase过滤器

中主要的数据读取函数是get()和scan(),它们都支持直接访问数据和通过指定起止行键访问数据的功能。我们可以在查询中添加更多的限制条件来减少查询得到的数据量,这些限制可以是指定列族、列、时间戳以及版本号。这些方法可以帮助我们控制哪些数据在查询时被包含其中,但是它们缺少一些细粒度的筛选功能,比如基于正则表达式对行键或是值进行筛选。Get和Scan两个类都支持过滤器,理由如下:这类对象提供的基本A...

2019-11-28 14:29:46 232

原创 Hbase的表结构,基本操作,元数据表meta

.Hbase的表结构 Hbase是面向列的非关系数据库,其数据模型如下所示: 一张表是由多行记录组成的,而每行记录是由多个列族组成的,每个列族又是由多个列组成的。 每行的Rowid在Hbase中也叫做RowKey,用来标识行记录,每条记录中都包含着多个列族,列族就如同一个部门,列族下是列,列就如...

2019-11-28 14:26:16 1848

原创 解决方案-hadoop组件,外网部署客户端。

需要开通的端口服务port配置文件端口服务zookeeper2181core-site.xmlha.zookeeper.quorumhdfs9000hdfs-site.xmldfs.namenode.rpc-address.beh.nn1hdfs50070hdfs-site.xmldfs.namenode.http-...

2019-11-28 14:22:31 200

原创 搭建Python独立环境:virtualenv的应用

virtualenv简介和安装virtualenv是Github上的一个项目,按照它的原话就是『Python虚拟环境的构建者』,这是它的项目地址:Virtual Python Environment builder这里简单介绍下它的工作原理:virtualenv把运行Python程序必须的基本环境,包括二进制Python自身、Python标准库、pip安装器,以及至关重要的site-packa...

2019-11-28 14:18:17 228

原创 使用Ubuntu操作系统安装Docker

Ubuntu操作系统要求Docker 支持以下版本的Ubuntu操作系统:Ubuntu Xenial 16.04 (LTS)Ubuntu Wily 15.10Ubuntu Trusty 14.04 (LTS)Ubuntu Precise 12.04 (LTS)预安装Docker 目前只能安装在 64 位平台上,并且要求内核版本不低于 3.10,实际上内核越新越好,过低的内核版本容易造...

2019-11-28 14:13:24 119

原创 无基础学习hadoop到上手工作线路指导初级篇

此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结。五一假期:在写点内容,也算是总结。上面我们会了基本的编程,我们需要对hadoop有一个更深的理解:hadoop分为hadoop1.X、hadoop2.X,并且还有hadoop生态系统。这里只能慢慢介绍了。一口也吃不成胖子。hadoop 1.x分为mapreduce与hdfs其中mapreduce是很多人都需要迈...

2019-11-28 11:59:44 132

原创 Kafka 客户端开发

前两篇文章讲述了 Kafka 的 工作机制 和 服务器集群部署。至此,Kafka 服务器已就绪,本文分别以官方API、Spring、SpringBoot三种构建方式,讲述了 Kafka 消费生产者和消费者的开发。作者:王克锋出处:https://kefeng.wang/2017/11/18/kafka-development/版权:自由转载-非商用-非衍生-保持署名,转载请标明作者和出...

2019-11-28 11:51:40 183

原创 Hadoop的详细安装过程

安装HDFS,其实就是准备大量的Linux服务器,安装hadoop软件,然后在不同的机器上启动不同的程序,包括namenode,datanode,客户端。 准备4台Linux服务器,1台用于启动namenode,3台用于启动datanode。 安装步骤:1:准备4台Linux机器,并做好基础配置 IP地址 ...

2019-11-27 15:56:11 113

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

SortShuffleManager运行原理SortShuffleManager的运行机制主要分成两种,一种是普通运行机制,另一种是bypass运行机制。当shuffle read task的数量小于等于spark.shuffle.sort.bypassMergeThreshold参数的值时(默认为200),就会启用bypass机制。普通运行机制下图说明了普通的SortShuffleMana...

2019-11-27 15:52:31 274

原创 kubernetes的基本操作

基础操作 查看集群信息 kubectl cluster-info 查看组件健康状态 kubectl get cs(componentstatuses) 1、集群操作 kubectl get pod --all-namespaces 2、查看指定namespace的pod的状态以kube-system为例 ...

2019-11-27 15:49:26 103

原创 LINUX环境下JDK安装

最近在学习大数据,想试着把所有的环境搭建过程全都记录下来,以后也可以回头看看,看看当初自己稚嫩的思想或是一些现在还看不透的东西,但因为可能篇幅过长,会有小伙伴可能找不到自己想要的,所以就把每一点分来写(希望能帮到一些和我一样的初学者,毕竟在那么多帖子里你能看到我的也是一种缘分)JAVA环境搭建安装准备 虚拟机集群(如果并不是集群,只是想单机安装JDK,我会在某些不需要的操作后加上标识...

2019-11-27 15:46:50 125

原创 Docker笔记:介绍、安装、卸载、更新

docker版本介绍目前Docker提供两种版本,Community版本和企业版本。其区别如下:功能Community EditionEnterprise Edition BasicEnterprise Edition StandardEnterprise Edition Advanced容器引擎;内置的编排功能(built in orchestrati...

2019-11-27 15:43:04 122

原创 MySQL进阶(三)SQL优化

查询效率分析:子查询为确保消除重复值,必须为外部查询的每个结果都处理嵌套查询。在这种情况下可以考虑用联接查询来取代。 如果要用子查询,那就用EXISTS替代IN、用NOT EXISTS替代NOT IN。因为EXISTS引入的子查询只是测试是否存在符合子查询中指定条件的行,效率较高。无论在哪种情况下,NOT IN都是最低效的。因为它对子查询中的表执行了一个全表遍历。 建立合理的索引,避免扫描...

2019-11-27 15:39:26 64

原创 ElasticSearch的相关知识

1.ElasticSearch的简介ElasticSearch:智能搜索,分布式的搜索引擎是ELK的一个组成,ELK代表的是:E就是ElasticSearch,L就是Logstach,K就是kibana什么是搜索?1)百度,谷歌,必应。我们可以通过他们去搜索我们需要的东西。但是我们的搜索不只是包含这些,还有京东站内搜索啊。2)互联网的搜索:电商网站。招聘网站。新闻...

2019-11-27 15:35:52 108

原创 docker快速搭建几个常用的第三方服务

本次和大家分享的内容是使用docker快速搭建工作中常用的第三方的服务,对于有一些互联网背景的公司来说,以下几个服务都是很需要的:redis,rabbit,elasticsearch;本篇涉及内容深度只针对于简单的测试环境和程序员自身学习,要继续深入各位可以花时间自行研究,希望本篇内容给大家带来好的帮助。本篇涉及docker常用几个命令: docker pull 镜像名:版本:拉去镜...

2019-11-27 15:32:49 121

原创 关于 logging 的一些琐事

logging模块都用了好久了,不过由于文档不够详细,每次都忍不住去搜索别人的文章,于是就干脆记录下来吧。懒得分段了,想到哪写到哪吧。为什么 logging.info() 默认不输出任何东西? 因为默认生成的 root logger 的 level 是 logging.WARNING,低于该级别的就不输出了。可以进行如下设置来输出: >>>importloggin...

2019-11-27 15:30:15 191

原创 Cronjob命令超长的处理

如果您是查crontab命令被截断的问题,请先查下命令中是否存在%没有被转义。背景在docker中启动容器,结合django-crontab,可以在容器中传入crontab job具体使用请参考django-crontab。然后在容器的docker-file中 CMD [“/furion/run.sh”],其中run.sh 内容大概是这样的:python manage.py cr...

2019-11-27 15:25:28 248

原创 QEMU和KVM的关系

首先KVM(Kernel Virtual Machine)是Linux的一个内核驱动模块,它能够让Linux主机成为一个Hypervisor(虚拟机监控器)。在支持VMX(Virtual Machine Extension)功能的x86处理器中,Linux在原有的用户模式和内核模式中新增加了客户模式,并且客户模式也拥有自己的内核模式和用户模式,虚拟机就是运行在客户模式中。KVM模块的职责就是打开并...

2019-11-26 15:38:55 270

原创 Python3.6下scrapy框架的安装

首先考虑使用最简单的方法安装pipinstallscrapy命令安装,提示Failed building wheel for TwistedMicrosoft Visual C++ 14.0 is required...于是开始问度娘应该怎样安装,看了几篇博客,虽然和我的问题不十分相同,但是也受到了启发,知道应该怎样解决我的问题了。解决问题的过程总结如下:1、直接使用...

2019-11-26 15:34:50 100

原创 zookeeper 的安装 和 启动

1.下载  下载地址:https://archive.apache.org/dist/zookeeper/zookeeper-3.4.9/2、启动  进入bin文件夹下,如下图:3、运行(windows环境)  双击zkServer.cmd,发现闪退4、问题解决  打开zkServer.cmd进行编辑,在尾部加pause,如下图:保存,再次双击,发现找不...

2019-11-26 15:29:41 132

原创 虚拟机Linux,对ubontu磁盘扩容

未扩展前: 扩展后: 1.在vmware中选择虚拟机设置,输入你想扩展到的大小,最后点击扩展。 2.安装gparted分区管理软件,apt-get install gparted 3.打开软件,将extend分区删掉,不删的话无法重置...

2019-11-26 15:26:04 112

原创 windows7上使用docker容器

1.安装下载DockerToolbox,并安装。下载地址:https://dn-dao-github-irror.daocloud.io/docker/toolbox/releases/download/v17.06.2-ce/DockerToolbox-17.06.2-ce.exe。安装过程不多说了,和别的windows软件差别不大。安装完成后桌面有以下图标:2.开始双击...

2019-11-26 15:21:57 130

原创 VMware没有虚拟网卡出现

问题概述:相信大家在因各种原因删除卸载vm虚拟机后,突然有一天想要重装vm在本机做一个其他类型的系统来满足一些学习工作需求,但是安装完了以后发现没有虚拟网卡无法桥接!,在百度谷歌上苦苦搜索,在各大论坛苦苦询问,并没什么卵用……——问题分析:●下载的vm虚拟机安装包是精简版。●以前安装过vm虚拟机,没卸载删除干净。(这是重点!)●重做过系统。——解决办法:①下载vm虚拟机完整版安装包...

2019-11-26 15:19:04 122

原创 Redis是如何淘汰数据?

摘要:大家在用redis做缓存数据的时候有没有估算过整个缓存使用了多少空间呢?如果缓存数据的大小超过了整个redis的内存大小,又会有什么情况发生呢? 在redis中,我们是可以去设置最大使用内存大小server.maxmemory的,当redis内存数据集大小上升到一定程度的时候,就会施行数据淘汰机制。大家在用redis做缓存数据的时候有没有估算过整个缓存使用了多少空间呢?如果缓存数据的大...

2019-11-26 15:12:25 119

原创 Mybatis ---自动生成代码

用到了自动代码生成功能,特记录下来,以备后用。下面代码为链接DB2数据库的。 import com.baomidou.mybatisplus.generator.AutoGenerator; import com.baomidou.mybatisplus.generator.config.DataSourceConfig; import com.baomidou.my...

2019-11-26 15:06:53 112

原创 mongodb数据备份与恢复

1.备份的语法: mongodump -h dbhost -d dbname -o dbdirectory -h: 服务器地址, 也可以指定端⼝号 -d: 需要备份的数据库名称 -o: 备份的数据存放位置, 此⽬录中存放着备份出来的数据 2.恢复语法: mongorestore -h dbhost -d dbname-...

2019-11-26 14:54:08 83

转载 mysql常用函数

字符串:字符串转数字:cast(字符串as SIGNED)concat(str1,str2,...):把参数连成一个长字符串并返回(任何参数是null时返回null)select concat('my', 's', 'ql'); #mysqllocate(substr,str):返回字符串substr在字符串str的第pos个位置起第一次出现的位置(str不包含substr时...

2019-11-25 15:35:53 103

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除