2019年11月_爱学习的小肥猪

原创启动azkaban报错

按照文档配置、启动，启动的时候报错，1、在bin下，启动./azkaban-web-start.sh报错Using Hadoop from /home/hadoop/hadoop-2.6.0Using Hive from./..:./../lib/azkaban-2.5.0.jar:./../lib/commons-collections-3.2.1.jar:./../lib/co...

2019-11-29 11:26:29 455

原创开箱即用的性能分析工具pinpoint

pinpoint是开源在github上的一款APM监控工具，它是用Java编写的，用于大规模分布式系统监控，属于分布式调用链监控组件。它主要的特点是开箱即用、完备的Web界面，对性能影响较小，无侵入式安装探针，小团队懒人的必备佳品。官网：https://github.com/naver/pinpoint 监...

2019-11-29 11:24:48 183

原创 HiveService2启动源码查看

目录1、问题2、解决(这里先放着,只作为记录)3、通过源码和日志排查过程———————————————————————————-1、问题:近期公司的HiveService2启动有点慢,需要10分钟.2、解决(这里先放着,只作为记录):原因:HiveServer2在启动的时候,需要在hivemetastore中建立一个物化视图,这就是cache.每次查询的时候,查询语句先要通过hivem...

2019-11-29 11:21:27 524

原创 Geotrellis学(踩)习(坑)笔记（三）——缓冲区分析

栅格数据的缓冲区分析主要可以分成两种，一种是先将矢量数据做缓冲区之后进行栅格化，另一种是直接将栅格数据进行缓冲区分析。下面是这两种方式的代码：将矢量数据先进行buffer再栅格化：def bufferPoints(): Unit ={ val extent:Extent =Extent(0, 0, 80, 80) val re =RasterExtent(extent, 1...

2019-11-29 11:18:52 2071

原创 hbase 2.0.1安装

机器环境是：zookeeper 3.4.12 和hbase 2.0.1。一、 zookeeper安装1. 解压tar zxf zookeeper-3.4.12.tar.gz -C /opt/modules/2. 修改配置cp conf/zoo_sample.cfg zoo.cfgmkdir zkDatavi zoo.cfgdataDir=/opt/modules/zookeeper...

2019-11-29 11:16:49 123

原创 HBase 客户端类型（二）

3.Framework Clients---在更直接的网关客户端之后，现在要讨论第二类客户端，将它们统称为框架(framework)。这类客户端提供了更高级的抽象，一般使用 domain specificlanguage (DSL) 的形式。包括，例如 SQL, 关系数据库系统与外部客户端的混合用语(lingua franca)，以及 MapReduce, 原始的处理框架，用于编写和执行长...

2019-11-29 11:14:26 247

原创 MapReduce的几个典型事例，全排序，倒排序

以下的几种实现，采用的是本地实现，并没有放在分布式上去运行，如果方分布式，打成Jar包即可1.全排序全排序的意思是在生成的所有结果文件中，Key是从小到大排序的，注意，不是局部有序（某一个输出文件Key有序）而是所有的输出文件，也就是说从第一个输出文件开始到最后一个输出文件，Key是从小到大排序的。实现方法： 1.定义1个reduce 2.自定义分区函数.自行设置分...

2019-11-29 11:11:53 839

原创 redis知识整理(二)redis之redis起步

(redis的特色-独特的键值对模型) 很多数据库只能处理一种数据结构： SQL数据库——表格 Memcached——键值对数据库，键和值都是字符串文档数据库（CouchDB、MongoDB）——由JSON/BJSON组成的文档一旦数据库提供的数据结构不适合去做某件事的话，程序写...

2019-11-29 11:02:28 53

原创 Hdfs节点的服役与退役

Hdfs节点的服役与退役也就是节点的新增与删除。其中退役也就是把节点放在黑名单里，并且从白名单中删除，服役就是在白名单中新加入节点具体配置如下：黑白名单的组合情况 ------------------------- include //dfs.include（白名单）...

2019-11-29 10:59:43 172

原创 Hadoop集群搭建

1.Hadoop集群的搭建的准备关闭防火墙centos防火墙操作[cnetos 6.5之前的版本]$>sudo service firewalld stop //停止服务$>sudo service firewalld start //启动服务$>sudo service firewalld status //查看状态[...

2019-11-29 10:57:05 111

原创 Hive建表，建分区表，建桶表，建视图

前面我们已经基本熟悉认识了Hive，下面我们就来讨论一下Hive的具体使用，包括完整语法建表，建分区，建桶，建视图以下所建立的表都是在mydb数据库创建的（在Hive的命令行下，直接use mydb;然后进行如下操作就可以）。1.Hive建表建表的完整语法如下： CREATE TABLE IF NOT EXISTS t2(id int,name string,age i...

2019-11-28 15:58:14 1091

原创 Zookeeper集群搭建，Hadoop集群搭建高可用

1.Zookeeper集群搭建在s10,s11,s12上搭建Zookeeper集群步骤如下：1.挑选3台主机 s10 ~ s12 2.每台机器都安装zk tar开配置符号链接 $>ln -s zookeeper-3.4.9 zk 环境变量[/etc/profile] #z...

2019-11-28 15:54:34 218

原创 RowKey的设计规范,Hbase协处理器

1.RowKey的设计规范rowkey长度原则rowkey是一个二进制码流，可以是任意字符串，最大长度 64kb ，实际应用中一般为10-100bytes，以byte[] 形式保存，一般设计成定长。建议越短越好，不要超过16个字节，原因如下：目前操作系统都是64位系统，内存8字节对齐，控制在16个字节，8字节的整数倍利用了操作系统的最佳特性。rowkey散列原则如果r...

2019-11-28 15:51:03 91

中主要的数据读取函数是get()和scan()，它们都支持直接访问数据和通过指定起止行键访问数据的功能。我们可以在查询中添加更多的限制条件来减少查询得到的数据量，这些限制可以是指定列族、列、时间戳以及版本号。这些方法可以帮助我们控制哪些数据在查询时被包含其中，但是它们缺少一些细粒度的筛选功能，比如基于正则表达式对行键或是值进行筛选。Get和Scan两个类都支持过滤器，理由如下：这类对象提供的基本A...

2019-11-28 14:29:46 232

原创 Hbase的表结构，基本操作，元数据表meta

.Hbase的表结构 Hbase是面向列的非关系数据库，其数据模型如下所示：一张表是由多行记录组成的，而每行记录是由多个列族组成的，每个列族又是由多个列组成的。每行的Rowid在Hbase中也叫做RowKey，用来标识行记录，每条记录中都包含着多个列族，列族就如同一个部门，列族下是列，列就如...

2019-11-28 14:26:16 1848

原创解决方案-hadoop组件，外网部署客户端。

需要开通的端口服务port配置文件端口服务zookeeper2181core-site.xmlha.zookeeper.quorumhdfs9000hdfs-site.xmldfs.namenode.rpc-address.beh.nn1hdfs50070hdfs-site.xmldfs.namenode.http-...

2019-11-28 14:22:31 200

原创搭建Python独立环境：virtualenv的应用

virtualenv简介和安装virtualenv是Github上的一个项目，按照它的原话就是『Python虚拟环境的构建者』，这是它的项目地址：Virtual Python Environment builder这里简单介绍下它的工作原理：virtualenv把运行Python程序必须的基本环境，包括二进制Python自身、Python标准库、pip安装器，以及至关重要的site-packa...

2019-11-28 14:18:17 228

原创使用Ubuntu操作系统安装Docker

Ubuntu操作系统要求Docker 支持以下版本的Ubuntu操作系统：Ubuntu Xenial 16.04 (LTS)Ubuntu Wily 15.10Ubuntu Trusty 14.04 (LTS)Ubuntu Precise 12.04 (LTS)预安装Docker 目前只能安装在 64 位平台上，并且要求内核版本不低于 3.10，实际上内核越新越好，过低的内核版本容易造...

2019-11-28 14:13:24 119

原创无基础学习hadoop到上手工作线路指导初级篇

此篇是在零基础学习hadoop到上手工作线路指导（初级篇）的基础，一个继续总结。五一假期：在写点内容，也算是总结。上面我们会了基本的编程，我们需要对hadoop有一个更深的理解：hadoop分为hadoop1.X、hadoop2.X，并且还有hadoop生态系统。这里只能慢慢介绍了。一口也吃不成胖子。hadoop 1.x分为mapreduce与hdfs其中mapreduce是很多人都需要迈...

2019-11-28 11:59:44 132

原创 Kafka 客户端开发

前两篇文章讲述了 Kafka 的工作机制和服务器集群部署。至此，Kafka 服务器已就绪，本文分别以官方API、Spring、SpringBoot三种构建方式，讲述了 Kafka 消费生产者和消费者的开发。作者：王克锋出处：https://kefeng.wang/2017/11/18/kafka-development/版权：自由转载-非商用-非衍生-保持署名，转载请标明作者和出...

2019-11-28 11:51:40 183

原创 Hadoop的详细安装过程

安装HDFS，其实就是准备大量的Linux服务器，安装hadoop软件，然后在不同的机器上启动不同的程序，包括namenode，datanode，客户端。准备4台Linux服务器，1台用于启动namenode，3台用于启动datanode。安装步骤：1：准备4台Linux机器，并做好基础配置 IP地址 ...

2019-11-27 15:56:11 113

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

SortShuffleManager运行原理SortShuffleManager的运行机制主要分成两种，一种是普通运行机制，另一种是bypass运行机制。当shuffle read task的数量小于等于spark.shuffle.sort.bypassMergeThreshold参数的值时（默认为200），就会启用bypass机制。普通运行机制下图说明了普通的SortShuffleMana...

2019-11-27 15:52:31 274

原创 kubernetes的基本操作

基础操作查看集群信息 kubectl cluster-info 查看组件健康状态 kubectl get cs(componentstatuses) 1、集群操作 kubectl get pod --all-namespaces 2、查看指定namespace的pod的状态以kube-system为例 ...

2019-11-27 15:49:26 103

原创 LINUX环境下JDK安装

最近在学习大数据,想试着把所有的环境搭建过程全都记录下来,以后也可以回头看看,看看当初自己稚嫩的思想或是一些现在还看不透的东西,但因为可能篇幅过长,会有小伙伴可能找不到自己想要的,所以就把每一点分来写(希望能帮到一些和我一样的初学者,毕竟在那么多帖子里你能看到我的也是一种缘分)JAVA环境搭建安装准备虚拟机集群(如果并不是集群,只是想单机安装JDK,我会在某些不需要的操作后加上标识...

2019-11-27 15:46:50 125

原创 Docker笔记：介绍、安装、卸载、更新

docker版本介绍目前Docker提供两种版本，Community版本和企业版本。其区别如下：功能Community EditionEnterprise Edition BasicEnterprise Edition StandardEnterprise Edition Advanced容器引擎；内置的编排功能（built in orchestrati...

2019-11-27 15:43:04 122

原创 MySQL进阶（三）SQL优化

查询效率分析：子查询为确保消除重复值，必须为外部查询的每个结果都处理嵌套查询。在这种情况下可以考虑用联接查询来取代。如果要用子查询，那就用EXISTS替代IN、用NOT EXISTS替代NOT IN。因为EXISTS引入的子查询只是测试是否存在符合子查询中指定条件的行，效率较高。无论在哪种情况下,NOT IN都是最低效的。因为它对子查询中的表执行了一个全表遍历。建立合理的索引,避免扫描...

2019-11-27 15:39:26 64

原创 ElasticSearch的相关知识

1.ElasticSearch的简介ElasticSearch：智能搜索，分布式的搜索引擎是ELK的一个组成，ELK代表的是：E就是ElasticSearch，L就是Logstach，K就是kibana什么是搜索？1）百度，谷歌，必应。我们可以通过他们去搜索我们需要的东西。但是我们的搜索不只是包含这些，还有京东站内搜索啊。2）互联网的搜索：电商网站。招聘网站。新闻...

2019-11-27 15:35:52 108

原创 docker快速搭建几个常用的第三方服务

本次和大家分享的内容是使用docker快速搭建工作中常用的第三方的服务，对于有一些互联网背景的公司来说，以下几个服务都是很需要的：redis，rabbit，elasticsearch；本篇涉及内容深度只针对于简单的测试环境和程序员自身学习，要继续深入各位可以花时间自行研究，希望本篇内容给大家带来好的帮助。本篇涉及docker常用几个命令： docker pull 镜像名:版本：拉去镜...

2019-11-27 15:32:49 121

原创关于 logging 的一些琐事

logging模块都用了好久了，不过由于文档不够详细，每次都忍不住去搜索别人的文章，于是就干脆记录下来吧。懒得分段了，想到哪写到哪吧。为什么 logging.info() 默认不输出任何东西？因为默认生成的 root logger 的 level 是 logging.WARNING，低于该级别的就不输出了。可以进行如下设置来输出： >>>importloggin...

2019-11-27 15:30:15 191

原创 Cronjob命令超长的处理

如果您是查crontab命令被截断的问题，请先查下命令中是否存在%没有被转义。背景在docker中启动容器，结合django-crontab，可以在容器中传入crontab job具体使用请参考django-crontab。然后在容器的docker-file中 CMD [“/furion/run.sh”]，其中run.sh 内容大概是这样的：python manage.py cr...

2019-11-27 15:25:28 248

原创 QEMU和KVM的关系

首先KVM（Kernel Virtual Machine）是Linux的一个内核驱动模块，它能够让Linux主机成为一个Hypervisor（虚拟机监控器）。在支持VMX（Virtual Machine Extension）功能的x86处理器中，Linux在原有的用户模式和内核模式中新增加了客户模式，并且客户模式也拥有自己的内核模式和用户模式，虚拟机就是运行在客户模式中。KVM模块的职责就是打开并...

2019-11-26 15:38:55 270

原创 Python3.6下scrapy框架的安装

首先考虑使用最简单的方法安装pipinstallscrapy命令安装，提示Failed building wheel for TwistedMicrosoft Visual C++ 14.0 is required...于是开始问度娘应该怎样安装，看了几篇博客，虽然和我的问题不十分相同，但是也受到了启发，知道应该怎样解决我的问题了。解决问题的过程总结如下：1、直接使用...

2019-11-26 15:34:50 100

原创 zookeeper 的安装和启动

1.下载　　下载地址：https://archive.apache.org/dist/zookeeper/zookeeper-3.4.9/2、启动　　进入bin文件夹下，如下图：3、运行(windows环境)　　双击zkServer.cmd，发现闪退4、问题解决　　打开zkServer.cmd进行编辑，在尾部加pause,如下图：保存，再次双击，发现找不...

2019-11-26 15:29:41 132

原创虚拟机Linux，对ubontu磁盘扩容

未扩展前：扩展后： 1.在vmware中选择虚拟机设置，输入你想扩展到的大小，最后点击扩展。 2.安装gparted分区管理软件，apt-get install gparted 3.打开软件，将extend分区删掉，不删的话无法重置...

2019-11-26 15:26:04 112

原创 windows7上使用docker容器

1.安装下载DockerToolbox，并安装。下载地址：https://dn-dao-github-irror.daocloud.io/docker/toolbox/releases/download/v17.06.2-ce/DockerToolbox-17.06.2-ce.exe。安装过程不多说了，和别的windows软件差别不大。安装完成后桌面有以下图标：2.开始双击...

2019-11-26 15:21:57 130

原创 VMware没有虚拟网卡出现

问题概述：相信大家在因各种原因删除卸载vm虚拟机后，突然有一天想要重装vm在本机做一个其他类型的系统来满足一些学习工作需求，但是安装完了以后发现没有虚拟网卡无法桥接！，在百度谷歌上苦苦搜索，在各大论坛苦苦询问，并没什么卵用……——问题分析：●下载的vm虚拟机安装包是精简版。●以前安装过vm虚拟机，没卸载删除干净。（这是重点！）●重做过系统。——解决办法：①下载vm虚拟机完整版安装包...

2019-11-26 15:19:04 122

原创 Redis是如何淘汰数据？

摘要：大家在用redis做缓存数据的时候有没有估算过整个缓存使用了多少空间呢？如果缓存数据的大小超过了整个redis的内存大小，又会有什么情况发生呢？在redis中，我们是可以去设置最大使用内存大小server.maxmemory的，当redis内存数据集大小上升到一定程度的时候，就会施行数据淘汰机制。大家在用redis做缓存数据的时候有没有估算过整个缓存使用了多少空间呢？如果缓存数据的大...

2019-11-26 15:12:25 119

原创 Mybatis ---自动生成代码

用到了自动代码生成功能，特记录下来，以备后用。下面代码为链接DB2数据库的。 import com.baomidou.mybatisplus.generator.AutoGenerator; import com.baomidou.mybatisplus.generator.config.DataSourceConfig; import com.baomidou.my...

2019-11-26 15:06:53 112

原创 mongodb数据备份与恢复

1.备份的语法： mongodump -h dbhost -d dbname -o dbdirectory -h：服务器地址，也可以指定端⼝号 -d：需要备份的数据库名称 -o：备份的数据存放位置，此⽬录中存放着备份出来的数据 2.恢复语法： mongorestore -h dbhost -d dbname-...

2019-11-26 14:54:08 83

转载 mysql常用函数

字符串：字符串转数字:cast(字符串as SIGNED)concat(str1,str2,...)：把参数连成一个长字符串并返回(任何参数是null时返回null)select concat('my', 's', 'ql'); #mysqllocate(substr,str):返回字符串substr在字符串str的第pos个位置起第一次出现的位置(str不包含substr时...

2019-11-25 15:35:53 103

空空如也

空空如也