自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 秋招吐槽——hdfs联邦制度

如题,起因是今年秋招我曾面过北京appannie的大数据开发岗,技术面的时候面试官有问我一个很奇怪的问题前面我们讨论了下关于集群如何保证高可用性,我说做成HA的,两个master,一个挂了,另一个接替然后他问我,“两个master是同时运行的吗?”,我说“不是,一个action,一个是standby,二者的元数据是相同的。”他这时候就问我,应该如何优化这种模式,因为你有2个主节点...

2019-12-13 17:16:43 283 1

原创 学习随记11——Python梳理-3

列表*List是Python中使用最频繁的数据类型,在其他语言中通常叫做数组*专门用于存储一串信息*列表用 [ ] 定义,数据之间使用 , 分隔*列表的索引从0开始(索引又可以被称为下标).index() 确定数据在列表的位置.append() 向列表末尾追加数据(会改变列表长度).insert() 向列表插入数据(会改变列表长度).ext...

2019-12-05 17:26:41 173

原创 学习随记10——Python梳理-2

程序的三大流程顺序——从上向下,顺序执行代码分支——根据条件判断,决定执行代码的分支循环——让特定代码重复执行while 条件(判断 计数器是否达到 目标次数): 条件满足时,做的事情1 条件满足时,做的事情2 。。。 处理条件(计数器变化)除非特殊的需求,否则循环的技术都从0开始break 某一条件满足时,退出循环,不再执行后...

2019-12-05 11:09:19 242

原创 学习随记9——零散知识

大量数据查询优化1.将数据同步到MySQL数据库里(虽然蠢,但确实是一条可行之计,可以临时救场)2.数据存在HDFS上,所以用Spark查找,可提升速度(查询速度)同步:所有操作全做完,才返回给用户异步:将用户请求放入消息队列,并反馈用户,请求已响应,可进行其他操作OLAP:联机分析处理OLTP:联机事务处理过程区别:参考资料:https://zhidao.baid...

2019-12-05 10:49:50 123

原创 学习随记8——测试用例设计方法

一、等价类划分法将测试的范围划分成几个互不相交的子集,从每个子集中选出若干个有代表性的值作为测试用例。二、边界值分析法选出的测试用例,应选取正好等于,刚刚大于,刚刚小于边界的值,例如,对于在区间min,max的值,测试用例可以记为min,min+,max,max-三、错误推测法在测试程序时,人们可以根据经验或直觉推测程序中可能存在的各种错误,从而有针对性地编写错误的测试用例的方...

2019-12-04 19:50:26 105

原创 学习随记7————Python梳理-1

Python源程序就是一个特殊格式的文本文件,可以用任意文本编辑软件做Python开发Python程序的文件扩展名通常都是.pyPython2.X默认不支持中文Python3.X支持中文CPython——官方C语言JPython——javaIronPython——.Net和MonoPyPy——pythonIPython——交互式shell#——单行注释“”—...

2019-11-28 18:03:42 225

原创 学习随记6————hadoop集群与spark集群中的文件格式

文件格式rcfile 存储空间最小,查询效率最高,需要通过text文件转化来加载,加载的速度最快,由于列式存储方式,数据加载时性能消耗较大,但是具有较好的压缩比和查询响应textfile存储空间消耗比较大,并且压缩的text无法分割,合并查询的效率最低,可以直接存储,加载数据的速度最高sequencefile存储空间消耗最大,压缩的文件可以分割,...

2019-11-28 17:26:13 139

原创 学习随记5————shell编程基础

echo ——向窗口输出文本chmod +x ./test.sh ——使脚本具有执行权限readonly ——将变量定义为只读变量,只读变量的值不能改变unset ——删除变量,不能删除只读变量—————————————————————————————————————————————————————————shell传递参数脚本内获取参数的格式为$n。n代表一个数字,0为执...

2019-11-28 17:17:05 203

原创 学习随记3————SQL复习

DML——数据操作语言DDL——数据定义语言————————————————————————————————————————————————————————select——获取数据update——更新数据delete——从数据表中删除数据insert into——插入数据——————————————————————————————————————————————————...

2019-11-27 20:46:17 376

原创 学习随记2——数据建模相关

降维:可以看成是一个函数,输入D维的数据,产出M维的向量例子:淘宝店铺的特征,有非常多的维度,包括‘销售量’,‘宝贝分类’,‘宝贝价格’,‘评论数’..........假设有两维特征是‘浏览量’和‘访客量’,这两者之间具有强相关性,直觉上删除一个并不会造成多大的信息损失以上就是一个朴素的降维方法要求:既能降低维度,又能使损失的信息尽量少我们最后的理想目标,应该是表中的每个指标,...

2019-11-27 20:03:00 167

原创 学习随记1——数据仓库零散

标准数仓的分层ODS——历史存储层(复制层)PDW——数据仓库层(原子层)MID——数据集市层APP——应用层数仓标准上可以分成4层。但这种划分和命名不是唯一的,一般数仓都是四层,但不同公司有不同的叫法,比如临时层也叫复制层,而京东叫BDM,阿里巴巴叫数据准备层。有些系统里也会在ODS层前加一层SD层(源数据层),来指代数据的来源,SD层存储的数据一般具有多来源、多类型特征,可...

2019-11-08 16:51:51 183

原创 Linux学习笔记

在安装linux之前,我们首先要做的就是先安装虚拟机,这里我们选择VMware这款软件。那么什么是VMware?VMware是一款可以模拟一台真实物理计算机环境(cpu,主板,内存,显卡,硬盘)的软件,我们通常称之为虚拟机。这个系列中,比较出名的有VMware,VirtualBox等等虚拟网卡:安装后,此软件会在真实物理机上模拟出两个虚拟网卡,分别是VMware Virtual Ethe...

2019-03-08 22:59:33 909 1

原创 String及其常用API

String及其常用API字符串:就是由多个字符组成的一串数据。也可以看成是一个字符数组。说完了

2018-12-22 00:13:11 206

原创 随时保存!!!随时保存!!!随时保存!!!重要的事情说三遍!!!MD!!!心态炸了

辛辛苦苦敲了半天,MD,一个消息弹窗浏览器崩了!!!!!敲的全没了!!!!!除了个头,是要啥没啥,MMP你给我吐出来啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊...

2018-12-22 00:12:22 157

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除