自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 加班到凌晨的你,家里的她,是不是为你留了一盏灯,泡了一壶暖茶。

年底了很多公司又各种赶项目之前在知乎看到一个超暖心的故事程序员每次加班女朋友都在家里等他回来大厅的灯永远都为他留着茶壶里泡了新鲜的暖茶他说每再苦再累回到家的一瞬间所有的苦累都烟消云散了满屋的温暖和爱加班到凌晨的你有没有人为你留一盏灯泡一壶茶...

2019-10-31 17:10:12 183

原创 亲爱程序员宝爸,你有多久没陪过自己的孩子了~

朋友是个苦逼的程序员单休不说赶项目的时候基本每天都加班自从宝宝降临之后为了给他更好的生活他工作更加努力了从清远老家到广州2个小时左右的车程不远基本都是一个月回去一次宝宝一天天地长大朋友发现他错过了很多宝宝成长的细节他内心特别愧疚觉得自己不是一个称职的爸爸亲爱的程序员宝爸们,你有多久没陪过自己的孩子了也许他们更加需要你多留点儿时...

2019-10-31 16:57:04 102

原创 高中没毕业,就跑去学编程,意义大不大?

朋友这几天找我聊天说起工作的事情(她在一培训机构里面上班)甚是烦心说是班级里面有3个学生今年没参加高考高中毕业证都没拿到就跑了这边学编程开发学习态度不说主要是自己都不知道自己想要的是什么一股脑地跟潮流别人来了他们也来学看他们自己整天吊儿郎当的貌似也学不到什么我也在思考这样子的学习意义大不大?...

2019-10-31 16:44:43 253

原创 你支持你女朋友做程序员鼓励师吗?

大家都知道程序员的工作压力大每天有敲不完的代码加不完的班所以有的企业为了让程序员能在工作岗位上精神状态不那么紧绷开设了程序员鼓励师这个岗位说白了招聘一些漂亮妹子为程序员辅导心理上的压力她们的薪资其实不比程序员低如果你女朋友想去做程序员鼓励师你愿意支持她吗?...

2019-10-31 16:35:59 101

原创 大学编程教育,真的有点儿落后吧~

今天表妹在群里痛苦地表示她也开始学代码了(研究生学历,计算机专业)只是她学的知识点被java编程人员当即吐槽学得技术知识太落后了吧聊天记录如图所示:...

2019-10-31 16:13:30 124

原创 程序员段子大集结

程序员段子大集结,你看懂了多少?1.程序员要了3个孩子,分别取名叫Ctrl、Alt 和Delete,如果他们不听话,程序猿就只要同时敲他们一下就会好的。2. 某程序员对书法十分感兴趣,退休后决定在这方面有所建树。于是花重金购买了上等的文房四宝。一日,饭后突生雅兴,一番磨墨拟纸,并点上了上好的檀香,颇有王羲之风范,又具颜真卿气势,定神片刻,泼墨挥毫,郑重地写下一行字:hello world。...

2019-10-31 16:01:47 320

原创 程序员的996 ,你怎么看待?

现在很多公司都强制实行996 ,导致很多程序员工作过度疲劳那为什么程序员还是愿意待在那里拼了老命在敲代码在劳动法上,996其实是不合法的在现实生活中996真的会催人老的但还是很多程序员不离不弃996为什么呢?对于996,你怎么看?...

2019-10-31 15:40:07 251

原创 Java 语言依旧热门?它真的是最佳编程语言吗?

Java 作为一种高级面向对象编程语言,已经成为许多程序员开发和在线交付内容的首选编程语言之一。即便在其他编程语言你方唱罢我登场的历史潮流中,Java 依旧地位稳固!如今,Java 广泛用于编程各种解决方案,数百万个网络应用和 Web 小程序在使用它。一些重要的网站比如 Linked、Twitter、eBay 、Google;比较熟知的大型网站的后端比如电商平台阿里巴巴、淘宝、京东;大...

2019-10-31 15:30:40 232

原创 join的工作原理和UDF的定义

深入join的过程虽然我们在Spark篇的SparkSQL入门中也提到了一些join的东西,但是还是不够详细。这里我们将在Hive中执行join操作,看看在执行计划中究竟是怎么样的。现在我们有这么一个SQL语句,里面是对两个表进行join:selecta.empno,a.ename,a.deptno,b.dnamefromemp a join dept bon a.deptno...

2019-10-31 15:20:59 215

原创 用 Nginx + Lua(OpenResty) 开发高性能web【上...

在互联网公司,Nginx可以说是标配组件,但是主要场景还是负载均衡、反向代理、代理缓存、限流等场景;而把Nginx作为一个Web容器使用的还不是那么广泛。Nginx的高性能是大家公认的,而Nginx开发主要是以C/C++模块的形式进行,整体学习和开发成本偏高;如果有一种简单的语言来实现Web应用的开发,那么Nginx绝对是把好的瑞士军刀;目前Nginx团队也开始意识到这个问题,开发了nginx...

2019-10-31 15:01:24 396

原创 HBase存储剖析与数据迁移

1.概述HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储。所以,对于结构化的SQL语言查询,HBase自身并没有接口支持。在大数据应用中,虽然也有SQL查询引擎可以查询HBase,比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现,依然是调用了HBase的Java API来实现查询,写入等操作。这类查询引擎在业务层创建Schema来映射HBas...

2019-10-30 16:05:30 153

原创 Spark源码之Standalone模式下master持久化引擎讲解v

Standalone 模式下Master为了保证故障恢复,会持久化一些重要的数据,来避免master故障导致集群不可用这种情况(也即单点故障)。目前,有四种持久化策略:1、基于zookeeper的持久化引擎;2、基于文件的持久化引擎;3、用户自定义持久化引擎;4、不使用持久化引擎。一、在master的OnStart方法中,对应的源码如下:[Scala]纯文本查看复...

2019-10-30 15:57:20 175

原创 如何保证向kafka中写入数据时,数据不会丢失

如何保证向kafka中写入数据时,数据不会丢失1、Kafka写入数据丢失问题什么情况下Kafka中写入数据会丢失呢? 其实也很简单,大家都知道写入数据都是往某个Partition的Leader写入的,然后那个Partition的Follower会从Leader同步数据。但是万一1条数据刚写入Leader Partition,还没来得及同步给Follower,此时Leader ...

2019-10-30 15:50:49 1394

原创 Spark度量系统相

Spark度量系统 Spark的Metrics System的度量系统,有两个部分组成:source,sink,创建的时候需要制定instance。度量系统会周期的将source的指标数据被sink周期性的拉去,sink可以有很多。Instance代表着使用度量系统的角色。在spark内部,目前master,worker,Executor,client driver,这些角色都...

2019-10-30 15:38:01 136

原创 Cobbler自动化安装系统2

Cobbler 基础配置cobbler配置,配置生效cobbler sync导入安装镜像挂载光盘mount-t iso9660-o loop/tmp/CentOS-7-x86_64-DVD-1611.iso/mnt/挂载Centos 6.8光盘镜像到/mnt目录下,导入cobbler import--name=Centos-6.8--path=/m...

2019-10-30 15:32:12 258

原创 HBase原理和设计

HBase原理和设计一、简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,H...

2019-10-30 15:25:29 152

原创 HBase之Region切分原理

HBase之Region切分原理 Region自动切分是HBase能够拥有良好扩张性的最重要因素之一,也必然是所有分布式系统追求无限扩展性的一副良药。HBase系统中Region自动切分是如何实现的?这里面涉及很多知识点,比如Region切分的触发条件是什么?Region切分的切分点在哪里?如何切分才能最大的保证Region的可用性?如何做好切分过程中的异常处理?切分过程中要不...

2019-10-30 15:19:12 722

转载 impala初探

1、impala的介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。2、impala与hive的关系impala是基于hive的大数据分析查询引擎,直接使用hive的元数据库metadata,意味着impala元数据都...

2019-10-30 15:09:31 172

原创 flink状态管理-keyed

Flink主要有两种基础类型的状态:keyed state 和operator state。一、Keyed State Keyed State总是和keys相关,并且只能用于KeyedStream上的函数和操作。你可以将Keyed State视为是已经被分片或分区的Operator State,每个key都有且仅有一个状态分区(state-partition)。每个keyed-...

2019-10-30 15:04:36 214

原创 ElasticSearch写入数据和查询数据的过程

Es写数据过程1)客户端选择一个node发送请求过去,这个node就是coordinating node,协调节点,对document进行路由,将请求转发给对应的node2)实际的node上的primary shard处理请求,然后将数据同步到replica node3)coordinating node,如果发现primary node和所有replica node都搞定之后,就返回响应结果给客...

2019-10-30 15:00:57 771

转载 HBase 中加盐(Salting)之后的表如何读取:Spar...

HBase 中加盐(Salting)之后的表如何读取:Spark 篇 在《HBase 中加盐(Salting)之后的表如何读取:协处理器篇》文章中介绍了使用协处理器来查询加盐之后的表,本文将介绍第二种方法来实现相同的功能。 我们知道,Hbase为我们提供了 hbase-mapreduce 工程包含了读取HBase表的 InputFormat、OutputF...

2019-10-29 15:38:16 671

转载 HBase 中加盐(Salting)之后的表如何读取:MapR...

HBase 中加盐(Salting)之后的表如何读取:MapReduce 篇 前两篇文章,《HBase 中加盐(Salting)之后的表如何读取:协处理器篇》和《HBase 中加盐(Salting)之后的表如何读取:Spark 篇》分别介绍了两种方法读取加盐之后的HBase表。本文将介绍如何在 MapReduce 读取加盐之后的表。 在 MapReduc...

2019-10-29 15:36:13 342

原创 一、什么是复杂事件处理(CEP Complex Event Processing)

复杂事件处理(CEP)是事件处理,它结合来自多个来源的数据来推断表明更复杂情况的事件或模式。复杂事件处理的目标是识别有意义的事件(例如机会或威胁)并尽快响应它们。CEP旨在发现情况。CEP不是通用应用程序代码容器或分布式处理平台。CEP通过提供声明性语言(事件处理语言,EPL)或其他抽象来帮助检测情境,从而使情境检测更容易,更快捷。1、CEP是有状态分析,因为为了检测情况,需要记住某些事情...

2019-10-29 15:30:56 2810

原创 --k8s简介--

设计Kubernetes在设计结构上定义了一系列的构建模块,其目的是为了提供一个可以共同提供部署、维护和扩展应用程序的机制。组成Kubernetes的组件设计概念为松耦合和可扩展的,这样可以使之满足多种不同的工作负载。可扩展性在很大程度上由Kubernetes API提供,此API主要被作为扩展的内部组件以及Kubernetes上运行的容器来使用PodKubernetes的基本调度单元称为“pod...

2019-10-29 15:22:10 160

原创 ElasticStack学习(三):ElasticSearch基本概念

1、文档  1)ElasticSearch是面向文档的,文档是所有可搜索数据的最小单位。例如:    a)日志文件中的日志项;    b)一张唱片的详细信息;    c)一篇文章中的具体内容;   2)在ElasticSearch中,文档会被序列化成Json格式:    a)Json对象是由字段组成的;    b)每个字段都有对应的字段类型(如:字符串、数值、日期类型等...

2019-10-29 15:12:16 153

转载 常见的hadoop十大应用误解

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十大应用误解和正解。1. (误解) Hadoop什么都可以做(正解) 当一个新技术出来时,我们都会去思考它在各个不同产业的应用,而对于平台的新技术来说,我们思考之后常会出现这样的结论 “这个好像什...

2019-10-29 14:58:52 86

原创 Spark的运行流程详解

一、Spark提交应用任务的四个阶段:总共提交的任务分为四个阶段,提交+执行:1、在分配完毕executor以后,解析代码生成DAG有向无环图;2、将生成的DAG图提交给DAGScheduler,这个组件在driver内,DAGScheduler负责切分阶段,按照DAG图中的shuffle算子进行stage阶段的切分,切分完毕阶段以后,按照每个阶段分别生成对应task任...

2019-10-29 14:43:27 516

转载 检索和过滤的区别 (query vs. filter)

1 filter与query示例1.1 准备测试数据PUT website/_doc/1{ "title": "小白学ES01", "desc": "the first blog about es", "level": 1, "post_date": "2018-10-10", "post_address": { "country": "China",...

2019-10-29 14:30:33 1199

原创 Hadoop学习-hive的安装和命令行使用和java操作

Hive的用处,就是把hdfs里的文件建立映射转化成数据库的表 但hive里的sql语句都是转化成了mapruduce来对hdfs里的数据进行处理 ,并不是真正的在数据库里进行了操作。 而那些表的定义则是储存在了mysql数据库中,他只是记录相应表的定义 所以你的集群中要有一台机器装了mysql 装hive...

2019-10-29 14:26:28 209

原创 Hadoop和Spark的Shuffer过程对比解析

Hadoop Shuffer#    Hadoop 的shuffer主要分为两个阶段:Map、Reduce。Map-Shuffer:#    这个阶段发生在map阶段之后,数据写入内存之前,在数据写入内存的过程就已经开始shuffer,通过设置mapreduce.task.io.sort.mb的参数,可改变内存的大小,默认为100M。数据在写入内存大于80%时,会发生溢写spil...

2019-10-29 14:22:47 298

原创 JVM实战---类加载的过程

[backcolor=rgba(255, 255, 255, 0.5)]任何程序都需要加载到内存才能与CPU进行交流同理, 字节码.class文件同样需要加载到内存中,才可以实例化类ClassLoader的使命就是提前加载.class 类文件到内存中在加载类时,使用的是Parents Delegation Model(溯源委派加载模型)[backcolor=rgba(255, 255, ...

2019-10-28 15:44:55 209

原创 hive 标准hql建表语法格式

一.标准hql建表语法格式1.官方标准语法:(hql不区分大小写,下面[]里的属性是可选属性)具体参考官网界面:HIVE官网建表说明文档[url=][/url]CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], .....

2019-10-28 15:41:58 312

原创 Spark和Scala当中的collect方法的用法和例子

[学习笔记]collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察,毕竟分布式数据集比较抽象。Spark的collect方法,是Action类型的一个算子,会从远程集群拉取数据到driver端。最后,将大量数据汇集到一个driver节点上,将数据用数组存放,占用了jvm堆内存,非常用意造成内存溢出,只用作小型数据的观察。*/ val arr = res.c...

2019-10-28 15:38:05 458

原创 ---zookeeper--

5.1:三台虚拟机关闭防火墙三台机器执行以下命令(root用户来执行)[AppleScript]纯文本查看复制代码? 1 2 service iptables stop #关闭防火墙 chkconfig iptables off #禁止开机启动 5.2三台机器关闭selinux 什么是SELinux ...

2019-10-28 15:30:44 116

原创 ranger编译安装

ranger大数据领域的一个集中式安全管理框架,它可以对诸如hdfs、hive、kafka、storm等组件进行细粒度的权限控制。本文将介绍部署过程1.部署准备ranger: 进入apach官网下载[url]http://ranger.apache.org/download.html[/url],本次使用的是ranger1.2.0 ,地址为http://mirror.bit....

2019-10-28 15:26:24 1008

原创 Windows用Eclipse来开发hadoop的WordCount的helloworld

[学习笔记]2.Win7用Eclipse来开发hadoop的WordCount的helloworld网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Eclipse安装目录下的dropins文件夹下,我的目录是C:\Users\test\eclipse\jee-oxygen\eclipse\dropins,然后重启Eclipse就可以看到MapRedu...

2019-10-28 15:23:17 84

原创 大数据之路:数据挖掘---中文分词

、数据挖掘---中文分词• 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。• 例如: – 阿三炒饭店: – 阿三 / 炒饭 / 店 阿三 / 炒 / 饭店• 和英文不同,中文词之间没有空格,所以实现中文搜索引擎,比英文多了一项分词的任务。• 如果没有中文分词会出现: – 搜索“达内”,会出现“齐达内”相关的信息• 要解决中文分词准确度的问题,是否可以提供一...

2019-10-28 15:17:39 438

原创 ResourceManager学习之Application,状态机管理

Application管理YARN中,Application是指应用程序,他可能启动多个运行实例,每个运行实例由一个ApplicationMaster与一组该ApplicationMaster启动的任务组成,他拥有名称、队列名、优先级等属性,是一个比较宽泛的概念,可以是一个MapReduce作业、一个DAG应用程序,设置可以是一个Storm集群实例(1) ApplicationACLsMa...

2019-10-28 15:08:59 117

原创 Kafka运维命令大全

1、集群管理前台启动brokerbin/kafka-server-start.sh <path>/server.propertiesCtrl + C 关闭后台启动brokerbin/kafka-server-start.sh -daemon <path>/server.properties关闭brokerbin/kafka-server-stop...

2019-10-28 15:02:53 220

原创 Hbase入门——客户端(Java,Shell,Thrift,Rest...

Hbase的客户端有原生java客户端,Hbase Shell,Thrift,Rest,Mapreduce,WebUI等等。下面是这几种客户端的常见用法。一、原生Java客户端原生java客户端是hbase最主要,最高效的客户端。涵盖了增删改查等API,还实现了创建,删除,修改表等DDL操作。配置java连接hbaseJava连接HBase需要两个类:HBaseCo...

2019-10-28 14:53:11 620

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除