自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(297)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive-优化

本地模式开启set hive.exec.mode.local.auto=true;set hive.exec.mode.local.auto.inputbytes.max=51234560;set hive.exec.mode.local.auto.input.files.max=10;可以不走mapreduce修改 hive-default.xmlset hive.fetch.task.conversion=more;<property> <name>hiv

2020-11-06 13:57:10 25

原创 superset-安装

安装anaconda3(略)superset-安装 conda config --set auto_activate_base false conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main conda

2020-10-26 23:48:51 22

原创 docker 安装

docker 安装 sudo -u root curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo yum install docker-ce docker-ce-cli containerd.io sys

2020-10-25 13:12:58 28

原创 devops-kafka集群配置

版本kafka_2.11-2.4.1server.properties# Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information regarding copyright ownership.# The A

2020-10-23 00:20:53 32 1

原创 linux-centos7设置静态ip

/etc/sysconfig/network-scripts/ifcfg-ens33(网卡名称)TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesIPV6_FAILURE_FATAL=noIPV6_ADDR_GEN_MODE=stable-privacyN

2020-10-22 00:35:52 32

原创 安全-md5

工具类import org.apache.commons.codec.binary.Hex;import java.security.MessageDigest;import java.util.Random;public class MD5Util { public static String md32(String src) { try { byte[] bs = MessageDigest.getInstance("MD5").diges

2020-10-09 14:12:42 112 2

原创 devops-大数据-伪分布式集群配置

hadoopcore-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property><property> <name>hadoop.tmp.dir</name>

2020-09-27 01:05:08 64

原创 c-vscode搭建c/c++开发环境

安装vscode 插件下载mingw64https://sourceforge.net/projects/mingw-w64/files/选择x86_64-posix-seh在代码目录新建三个json配置文件c_cpp_properties.json{ "configurations": [ { "name": "Win32", "includePath": [ "${workspaceF

2020-09-17 01:37:33 42 2

原创 maven-常用repo配置

POM 常用Repo <repository> <id>maven-ali</id> <url>http://maven.aliyun.com/nexus/content/groups/public//</url> <releases> <enabled>true</enabled>

2020-07-23 11:07:12 466

翻译 spark3.0-新特性

spark 3.0 终于出了!!!Apache Spark 3.0.0是3.x系列的第一个发行版。投票于2020年6月10日获得通过。此版本基于git标签v3.0.0,其中包括截至6月10日的所有提交。Apache Spark 3.0建立在Spark 2.x的许多创新基础之上,带来了新的想法并持续了很长时间。正在开发的长期项目。在开源社区的巨大贡献的帮助下,由于440多位贡献者的贡献,此发行版解决了3400多张门票。今年是Spark作为开源项目10周年。自2010年首次发布以来,Spark已经发展成为最

2020-06-27 20:05:35 2687 2

翻译 mysql-innodb-索引

聚集索引主键索引 的InnoDB术语 。 表存储是基于主键列的值组织的,以加快涉及主键列的查询和排序。为了获得最佳性能,请根据对性能要求最严格的查询仔细选择主键列。因为修改聚集索引的列是一项昂贵的操作,所以请选择很少更新或永远不会更新的主列。在Oracle数据库产品中,这种类型的表称为索引组织表。每个InnoDB表都有一个特殊的索引,称为聚簇索引 ,用于存储行数据。通常,聚簇索引与主键同义 。为了从查询,插入和其他数据库操作中获得最佳性能,您必须了解如何InnoDB使用聚簇索引为每个表优化最常见的查找

2020-06-07 10:51:16 82

翻译 mysql-innodb-内存结构

Buffer Pool缓冲池是主内存中的一个区域,在InnoDB访问表和索引数据时会在其中进行 缓存。缓冲池允许直接从内存中直接处理经常使用的数据,从而加快了处理速度。在专用服务器上,通常将多达80%的物理内存分配给缓冲池。为了提高大容量读取操作的效率,缓冲池被分为多个页面,这些页面可能包含多个行。为了提高缓存管理的效率,缓冲池被实现为page的链接列表。使用LRU算法的变体将很少使用的数据从缓存中老化掉 。知道如何利用缓冲池将经常访问的数据保留在内存中是MySQL优化的重要方面。LRU算法使用最

2020-06-07 09:35:19 189

翻译 mysql-innodb-MVCC

概述MVCC是“ 多版本并发控制 ”的 缩写。这种技术可以使具有特定 隔离级别的InnoDB 事务执行 一致的读取操作。也就是说,查询其他事务正在更新的行,并查看发生这些更新之前的值。通过允许查询继续进行而无需等待其他事务持有的锁, 这是增加并发性的强大技术 。此技术在数据库领域并不普遍。其他一些数据库产品和其他一些MySQL存储引擎不支持它。InnoDB是一个 多版本的存储引擎:它保留有关已更改行的旧版本的信息,以支持诸如并发和回滚之类的事务功能 。此信息存储在表空间中的数据结构中,该数据结构称为

2020-06-06 23:03:18 76

翻译 mysql-innoDB概述

本文内容基于MySQL5.7定义InnoDB是一种兼顾了高可靠性和高性能的通用存储引擎。在MySQL 5.7中,InnoDB是默认的MySQL存储引擎。除非您配置了其他默认存储引擎,否则发出CREATE TABLE不带ENGINE= 子句的语句将创建一个InnoDB表。优点它的DML操作遵循 ACID模型,并 具有具有 提交,回滚和 崩溃恢复 功能的事务, 以保护用户数据行级锁定和Oracle风格的一致读取可提高多用户并发性和性能。InnoDB表格将您的数据排列在磁盘上以基于主键优化查询 。每个

2020-06-06 14:54:20 65

原创 atlas-入门使用

概述Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。功能元数据类型和实例各种Hadoop和非Hadoop元数据的预定义类型...

2020-05-06 20:22:07 669

转载 hadoop-生态兼容性

hbase - jdkhbase - hadoophive-hadoop

2020-05-02 19:02:45 92

原创 大数据-jdbc并行插入数据

使用forkjoin和Guaua的集合类 final int para_num = (int) (Runtime.getRuntime().availableProcessors() / 0.8); logger.info("并发度:" + para_num); List<List<Object[]>> partitions =...

2019-12-12 16:22:11 88

原创 hive-hiveserver2配置负载均衡(nginx)

Nginx编译安装wget http://nginx.org/download/nginx-1.16.1.ziptar cd /nginx-1.16.1yum -y install gcc gcc-c++ make zlib-devel pcre-devel openssl-devel ./configure --prefix=/opt/nginx --with-pcre --with-...

2019-12-12 11:59:47 568

翻译 hadoop各版本特性

0.14.1HDFS中更好的校验和。校验和不再存储在并行HDFS文件中,而是由数据节点与块一起直接存储。这对于命名节点更加有效,并且还提高了数据完整性。管道:MapReduce的C ++ APIEclipse插件,包括HDFS浏览,作业监视等。HDFS中的文件修改时间。1.0安全HBase(append / hsynch / hflush和安全性)webhdfs(全面支持安全性)...

2019-11-21 10:06:35 279

原创 高并发-生产消费模型(阻塞队列)

class Producer implements Runnable { private final BlockingQueue<String> queue; Producer(BlockingQueue q) { queue = q; } public void run() { try { w...

2019-08-24 21:07:44 147

转载 spark-依赖包添加方式

1、上传到HDFS创建 archive: jar cv0f spark-libs.jar -C $SPARK_HOME/jars/ .上传jar包到 HDFS: hdfs dfs -put spark-libs.jar /some/path/在spark-default.conf中设置 spark.yarn.archive=hdfs:///some/path/spark-libs.jar...

2019-07-17 16:15:13 1166

转载 数据结构-hash-碰撞解决方法

Hash是一种校验方法,其中应用最广为人知的就是 HashMap。当然Hash算法并不完美,有可能两个不同的原始值在经过哈希运算后得到同样的结果,这样就是哈希碰撞。开放地址法开放地执法有一个公式:Hi=(H(key)+di) MOD m i=1,2,…,k(k<=m-1)其中,m为哈希表的表长。di 是产生冲突的时候的增量序列。如果di值可能为1,2,3,…m-1,称线性探测再散列。...

2019-06-09 09:18:36 928

转载 kafka-高性能秘密

利用Partition实现并行处理机器间的并行处理磁盘间的并行处理一个Partition只能被一个Consumer消费 Partition的个数决定了最大并行度ISR实现CAP中可用性与数据一致性的动态平衡由于Leader可移除不能及时与之同步的Follower,故与同步复制相比可避免最慢的Follower拖慢整体速度,也即ISR提高了系统可用性。ISR中的所有Follower都包含...

2019-06-03 13:11:52 93

原创 spark-面试题(含答案)

1 var, val和def三个关键字之间的区别?var immutable variableval mutable variabledef function defined keyword2.object 和 class 的区别?object 单例 无构造器 成员变量和method都是static 可以直接访问main方法 可以与class同名 构成伴生对象class 有构造器 需...

2019-06-03 09:23:58 2835

转载 kafka-消息防丢失和消息去重

如何防止数据丢失生产者:同步发送消息,且消息配置为-1或all,leader分区和所有follwer都写到磁盘里。异步模式下,为防止缓冲区满,可以在配置文件设置不限制阻塞超时时间,当缓冲区满时让生产者一直处于阻塞状态。生产者:手动提交,即读取到消息后,确认消息消费完毕,才手动提交offset。但是要避免逻辑处理时间过长,导致连接超时,会使消息重复消费。故kafka一定要配置上消息重试的机制...

2019-06-02 00:52:42 4433

转载 测试-各种序列化算法对比

2019-05-18 23:45:41 469

转载 测试-各种压缩算法对比

2019-05-18 23:43:20 1534

转载 操作系统-进程同步-信号量机制

整型信号量1.两个进程互斥访问一个临界资源 信号量s 初始值为 1var s integer wait(s) //用于申请资源{ while s<=0 do no-op; s=s-1 }signal(s) //用于释放资源{s=s+1}进程p1p1 {wait(mutex); counter= counter+1;signal(mutex);}进...

2019-05-12 19:33:10 140

原创 java函数式编程-Stream-collect()练习

java函数式的本质 个人感觉 就是把抽象的接口当做函数处理的引用 去除了面向对象的细节import com.google.common.collect.ImmutableList;import com.google.common.collect.Lists;import java.math.BigDecimal;import java.util.*;import java.util....

2019-04-09 19:40:25 426

转载 myql-各版本特性

4.12002年发布的4.0 Beta版,至此MySQL终于蜕变成一个成熟的关系型数据库系统。2002年mysql4.1版本增加了子查询的支持,字符集增加UTF-8,GROUP BY语句增加了ROLLUP,MySQL.user表采用了更好的加密算法。支持每个innodb引擎的表单独放到一个表空间里。innodb通过使用MVCC(多版本并发控制)来获取高并发性,并且实现sql标准的4种隔...

2019-03-28 22:06:10 148

转载 elasticsearch-各版本特性

Elasticsearch5.0支持Lucene 6.xInstant Aggregations,在Shard层面提供了Aggregation缓存新增 Sliced Scroll类型,现在Scroll接口可以并发来进行数据遍历了。每个Scroll请求,可以分成多个Slice请求,可以理解为切片,各Slice独立并行,利用Scroll重建或者遍历要快很多倍。新增了Profile API同...

2019-03-28 21:49:44 14618 2

转载 spring-各版本特性

3.1添加了引入环境profile功能添加了@enable注解,使用特定功能添加了对声明式缓存的支持,能够使用简单的注解声明缓存边界和规则添加的用于构造器注入的c命名空间,类似与Spring2的p命名空间,用于对应属性注入开始支持Servlet3.0,包括基于java配置中生命Servlet和Filter,不再只仅仅借助web.xml改善对于JPA的支持,让JPA能在Spring中完整...

2019-03-28 20:37:00 2051

转载 j2ee-各版本特性

Java EE 5发布时间:2006 年 5 月Web Services Technologies » Read moreImplementing Enterprise Web Services JSR 109 Download specJava API for XML-Based Web Services (JAX-WS) 2.0 JSR 224 Download specJav...

2019-03-28 20:07:22 544

转载 数据仓库-ETL系统

xxxx

2019-03-25 20:53:10 228

转载 java-函数式编程-并行Demo

package lamada;import org.junit.Test;import java.io.IOException;import java.nio.charset.StandardCharsets;import java.nio.file.Files;import java.nio.file.Paths;import java.text.DateFormat;impo...

2019-03-25 19:17:47 181

转载 java-函数式编程-设计模式

命令模式package pattern;import java.util.ArrayList;import java.util.List;public class CommandPattern { public static void main(String[] args) { Editor editor = new Editor() { ...

2019-03-22 20:21:05 169

转载 java-并发-锁

自旋锁package concurrency.lock;import java.util.concurrent.atomic.AtomicReference;/*** 自旋锁(spinlock):是指当一个线程在获取锁的时候,如果锁已经被其它线程获取,那么该线程将循环等待,然后不断的判断锁是否能够被成功获取,直到获取到锁才会退出循环。获取锁的线程一直处于活跃状态,但是并没有执行任何有...

2019-03-19 21:33:14 74

转载 hbase-各版本特性

1.01.API的变化,比如放弃了客户端几个重要的API:( HTableInterface, HTable,HBaseAdmin),建议程序升级到新的API,老的PAI会在2.X中删除。2.不重启regionserver的情况下读取配置文件。3.master节点也运行regionserver。master与regionserver共享RPC端口。4.global memstore和blo...

2019-03-17 21:01:15 2684

转载 kafka-各版本特性

0.8.2Kafka已经内置了机架感知以便隔离副本,这使得Kafka保证副本可以跨越到多个机架或者是可用区域,显著提高了Kafka的弹性和可用性。这个功能是由Netflix提供的  所有Kafka中的消息都包含了时间戳字段,这个时间就是这条消息产生的时间。这使得Kafka Streams能够处理基于事件时间的流处理;而且那些通过时间寻找消息以及那些基于事件时间戳的垃圾回收特性能为可能。Apa...

2019-03-17 20:08:46 4556

转载 hive-各版本特性

0.10.0[HIVE-887] - Allow SELECT without a mapreduce job[HIVE-895] - Add SerDe for Avro serialized data[HIVE-967] - Implement “show create table”[HIVE-1577] - Add configuration property hive.exec...

2019-03-16 23:17:13 1223 2

Microsoft Visual C++ 14.0|Microsoft Visual C++ Build Tools 14.zip

windows 的 Microsoft Visual C++ 14.0 的运行库 python常用依赖

2020-10-23

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除