天崩地裂鬼见愁-CSDN博客

转载常见十大算法

1.前言术语：稳定性：原本a在b之前，a=b，排序之后位置仍然不变，不稳定性则相反；内排序：所有的排序都在内存中完成；外排序：外排序数据要存放在磁盘上，排序要通过磁盘的内存的数据传输；事件/时间复杂度：算法执行所消耗的时间；空间复杂度：算法执行所消耗的内存；In/out-place: 不占/占额外内存2. 算法2.1 冒泡排序2.1.1 原理- 比较相邻的元素。如果第一个比第二个大，就交换它们两个- 对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对，这样在最后的元素应

2020-12-24 16:24:21 105

转载常用的数据结构

数据结构分类数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成。常用的数据结构有：数组，栈，链表，队列，树，图，堆，散列表等，如图所示：每一种数据结构都有着独特的数据存储方式，下面为大家介绍它们的结构和优缺点。1. 数组数组是可以再内存中连续存储多个元素的结构，在内存中的分配也是连续的，数组中的元素通过数组下标进行访问，数组下标从0开始。例如下面这段代码就是将数组的第一个元素赋值为 1。int[] data = new int[100]；data[0]

2020-12-24 12:04:03 149

转载大数据研发工程师应该知道的一些专业名词

QPS、TPS、PV、UV、GMV、IP、RPS等各种名词，外行看起来很牛X，实际上对程序员来说都是必懂知识点。下面我来一一解释一下。1.QPSQueries Per Second，每秒查询数。每秒能够响应的查询次数。QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准，在因特网上，作为域名系统服务器的机器的性能经常用每秒查询率来衡量。每秒的响应请求数，也即是最大吞吐能力。2.TPSTransactions Per Second 的缩写，每秒处理的事务数目。一个事务是指一个客户机向服

2020-12-24 10:47:52 247 1

转载 Redis高可用技术解决方案

本文主要针对 Redis 常见的几种使用方式及其优缺点展开分析。Redis常见的几种主要使用方式：Redis 单副本Redis 多副本（主从）Redis Sentinel（哨兵）Redis ClusterRedis 自研Redis各种使用方式的优缺点：1.Redis单副本Redis 单副本，采用单个Redis节点部署架构，没有备用节点实时同步数据，不提供数据持久化和备份策略，适用于数据可靠性要求不高的纯缓存业务场景。优点：1、架构简单、部署方便2、高性价比，当缓存使用时无需备用节点

2020-12-24 10:36:36 129

翻译缓存穿透、缓存击穿、缓存雪崩区别和解决方案

一、缓存处理流程前台请求，后台先从缓存中取数据，取到直接返回结果，取不到时从数据库中取，数据库取到更新缓存，并返回结果，数据库也没取到，那直接返回空结果。二、缓存穿透1. 描述：缓存穿透是指缓存和数据库中都没有的数据，而用户不断发起请求，如发起为id为“-1”的数据或id为特别大不存在的数据。这时的用户很可能是攻击者，攻击会导致数据库压力过大。2.解决方案：接口层增加校验，如用户鉴权校验，id做基础校验，id<=0的直接拦截；从缓存取不到的数据，在数据库中也没有取到，这时也可以将key

2020-12-23 11:54:28 91

转载阿里巴巴为什么能抗住90秒100亿？看完这篇你就明白了！

阿里巴巴为什么能抗住90秒100亿？看完这篇你就明白了！1、概述本文以淘宝作为例子，介绍从一百个并发到千万级并发情况下服务端的架构的演进过程，同时列举出每个演进阶段会遇到的相关技术，让大家对架构的演进有一个整体的认知，文章最后汇总了一些架构设计的原则。2、基本概念在介绍架构之前，为了避免部分读者对架构设计中的一些概念不了解，下面对几个最基础的概念进行介绍。1）什么是分布式？系统中的多个模块在不同服务器上部署，即可称为分布式系统，如Tomcat和数据库分别部署在不同的服务器上，或两个相同功能的To

2020-12-23 11:30:23 139

原创 CDH MR/Spark On Yarn如何查看对应的日志--写给CDH小白的一封信

如何合理且快速的根据日志去定位问题1. 前言我相信不只我一个人在刚使用CDH时提交第一个yarn作业后不知道如何去查看日志，而且在一些企业对服务器和域名权限有严格的控制，就算是yarn界面上有对应链接，未必点的进去，最近本人一直在研究CDH，无论CDH还是HDP或者华为的大数据平台，在这里有着通用的思路，现在分享给疑惑的入道新人，写的比较糙，请多直接；2.案例2.1 提交作业在yarn界面列表如下2.1.2 作业主体2.1.2 作业分支2.2 解析作业主体：指的是你提交作业后在yarn

2020-12-22 18:17:37 808

转载关于Hive 的map数控制

控制map个数与性能调优参数本系列几章系统地介绍了开发中Hive常见的用户配置属性（有时称为参数，变量或选项），并说明了哪些版本引入了哪些属性，常见有哪些属性的使用，哪些属性可以进行Hive调优，以及如何使用的问题。以及日常Hive开发中如何进行性能调优。1.Hive有哪些参数，如何查看这些参数Hive自带的配置属性列表封装在HiveConfJava类中，因此请参阅该HiveConf.java文件以获取Hive版本中可用的配置属性的完整列表。具体可以下载hive.src通过eclipse查看。全部属性

2020-12-22 18:01:01 183

原创 CDH6.2部署详细教程

图片太多。。。本人比较懒，后续再上传吧1.硬盘挂载(每台服务器上都操作)1.1 检查阿里云服务器数据盘情况fdisk -l1.2 挂载阿里云数据硬盘fdisk /dev/vdb输入"fdisk /dev/vdb"，然后根据下图的提示，输入n，p，1，回车，回车，wq，保存退出。完毕之后输入fdisk -l1.3 格式化分区及挂载目录1.3.1 格式化挂载数据硬盘分区mkfs.ext3 /dev/vdb11.3.2 创建目录挂载如果我们安装的是LNMP/AMH一键包，

2020-12-22 17:40:26 741

转载 YARN资源管理

资源管理container容器配置详解开题引文yarn是hadoop2.x引入的概念,hadoop1.x这个工作是MapReduce做的,在2.x引入了yarn,yarn是用来做资源管理和任务调度,本文详细介绍了yarn在生产上如何资源管理,即yarn的container容器.相关介绍内存:电脑cpu处理数据是不能直接从硬盘调用的，就好像我们的大脑从神经元之中读取记忆要通过长长的神经，内存条就承接啦电脑cpu于硬盘之间的数据交换所以内存条的好坏也很大程度决定了电脑处理速度的快慢。显卡：这个部件相信

2020-12-22 15:19:24 278

原创 CloudManager之HUE下的workflow踩坑路

由于工作需要个人就部署了一套基于cloudmanager的CDH，其中的坑似乎永远也填不完。。。。话不多说，进入正题这是我在使用CM的hue所遇到的坑，然后根据网上的启发自己所摸索出的一套解决方案，希望对大家有所帮助遇到的第一个问题如下图：...

2019-05-20 14:06:53 841

Python ORM框架sqlalchemy入门教程