自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生大数据

在职大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500+节点大数据集群,100PB+数据,爱好python,爬虫。免费给所有转行大数据小白,大数据初级开发者提供职业规划和学习定制建议,欢迎大家交流

  • 博客(18)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 linux突然所有命令都失效了,显示bash: xxxxx: command not found...

昨天因为用虚拟机调试程序,然后下班时不正常关机,今天突然打开linux系统使用时,无论输入任何命令都显示bash: xxxx: command not found...,比如cd  显示bash: cd : command not found...  比如ls,显示bash: ls: command not found...。再比如hadoop fs -ls /robot  bash: hadoo

2018-01-27 21:22:13 38584 13

原创 Scala系列2:Scala的概述安装以及开发工具的配置

1- 什么是Scala( Scalable Language) Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。(所以打包的scala程序可以用java -jar 或者scala执行),同时scala也是大数据中实时计算框架的Spark的编程语言。2-为什么要学Scala1...

2018-01-22 21:05:54 7015

原创 linux中tree工具命令的使用

一:tree工具功能说明:以树状图列出目录的内容,让你一目了然语  法:tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式>][目录...]补充说明:执行tree指令,它会列出指定目录下的所有文件,包括子目录里的文件。安装演示:一般linux系统不会自带tree工具,要手动安装:yum -y install   tree命令参数:t...

2018-01-22 20:28:13 15502

原创 关于HDFS中数据块block的设计和原理

HDFS,全称Hadoop Distributed FileSystem.是一个文件系统,用于存储文件,通过目录树/来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色(在一些非正式的文档或者旧文档中,也简称DFS)。1.HDFS的设计特点:              ①可以进行超大文件存储              ②对商用硬件要求不高

2018-01-21 02:09:05 15944 4

原创 hadoop之大数据生态系统的前世今生

一、从Hadoop框架讨论大数据生态1.1 Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈1.2 Hadoop发展历史1)Lucene--Doug Cutting开创的开源软件,用java书写

2018-01-21 00:26:46 3224

原创 combiner函数的使用注意事项和代码演示

1.Combiner功能是:合并汇总(shuffle中的组件)1)combiner是MR程序中Mapper和Reducer之外的一种组件。2)combiner组件的父类就是Reducer,也就是说combiner是继承之reducer的,相当于reducer3)combiner和reducer的区别在于运行的位置:Combiner是在每一个maptask所在的节点运行,然后Reduce

2018-01-20 23:40:20 5588 2

原创 为什么要使用分布式存储和分布式计算?

在这个数据爆炸的时代,产生的数据量不断地在攀升,从Gb,Tb,Pb,Zb.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据

2018-01-20 20:51:40 16016 1

原创 大数据开发要知道的关于AVRO的知识

Avro是apache Avro的简称,其实是一个独立于编程语言的数据序列化系统,设计用于支持大批量数据交换的应用。干过大数据都知道,hadoop自身提供了一个轻量级的序列化的系统Writable.虽然这个Writable相比Java提供的系列化Serializable更加轻便简洁好用,但是Writable类型也有很多不足,比如缺乏语言的可移植性,不能让Writable类型处理的数据在java,C

2018-01-18 16:32:07 4757

原创 虚拟机可以ping通外网和本地网络,但本地网路ping不通虚拟机的解决办法?

问题:有时候用虚拟机开发测试时,会突然发现用secure CRT等软件远程连接不了本地虚拟机,但是从虚拟机里面可以ping通百度或者本地localhost,虚拟机之间也可以互相ping通。但是反过来在cmd里面的DOS窗口却ping不通虚拟机?显示主机名错误或者其他什么原因?      解答:首先如果是ping IP地址从DOSping不通虚拟机,而反过来可以,那是因为没有本地的虚拟网卡没有配

2018-01-18 16:02:02 11822 4

原创 linux开发中常用的工具之netcat(nc瑞士军刀)

一:什么是瑞士军刀(netcat/nc)?     netcat被誉为网络安全界的‘瑞士军刀’,简称nc.一个简单而有用的工具,透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门(back-end)工具,能够直接由其它程序和脚本轻松驱动。同时,它也是一个功能强大的网络调试和探测工具,能够建立你需要的几乎所有类型的网络连接.     使用之前首先我们要弄明白ne

2018-01-14 16:23:30 11043

原创 Flume的多层代理和防止数据丢失

实际开发中,当我们用Flume采集日志时,由于数据源的

2018-01-12 13:02:15 18831 22

原创 开发中Flume的扇出机制的使用

实际开发中,flume的代理往往是多层嵌套的拓扑结构。所谓fan out(扇出)指的的是从一个source源向多个channnel,也就是向多个sink传递事件。正常的扇出流默认是向所有的channel复制事件,不过这个也是自定义选择的,比如可以通过source上设置一个复用选择器(multiplexing selector)来实现一些事件被送到指定的channel,另外一些事件被送到另一个c

2018-01-12 11:49:23 3187

原创 Flume开发中常用组件source,channel,sink等配置

实际开发中Flume中常用的source源,sink,channel,intercepertor等介绍,而实际上关于agent代理中设置选项有很多,具体要到官网去查看。

2018-01-11 22:27:23 3012

原创 Flume的拦截器和分区使用

实际开发中,为了对数据集的方便查询和使用,大型数据集常常被组织为分区(partition)。Flume事件的数据通常按时间来分区。比如把flume监听的数据写入到hdfs中时,就可以进行按时间分区,只需要对hdfs.path的属性进行设置如下:                 agent.sinks.sink1.path=/data/flume/year=%Y/month=%m/day=%d

2018-01-11 21:33:43 8345 1

原创 Flume的事务机制和可靠性

实际开发中,或者在面试中,总会碰到诸如Flume如何保证数据传输的完整性?     一:Flume的事务机制     所以这就不得不提Flume的事务机制(类似数据库的事务机制):Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。比如以上面一篇博客中的事例为例:spooling directory source 为文件的每一行创

2018-01-11 19:10:38 15082

原创 Flume系列2:Flume的安装与常见配置使用

1.Flume的安装使用Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境和安装了java虚拟机环境。 1.上传安装包到数据源所在节点上 2.然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 3.然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME

2018-01-11 18:17:13 3113

原创 Flume系列1:为什么需要flume以及flume的原理

1.为什么要有flume? flume的设计宗旨是向hadoop集群批量导入基于事件的海量数据。一个典型的例子就是利用flume从一组web服务器中收集日志文件,然后把这些文件中的日志事件转移到一个新的HDFS汇总文件中以做进一步的处理,所以flume的终点sink一般是HDFS,当然因为flume本生的灵活性,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外

2018-01-11 13:00:59 7692

原创 scala中常用的10个函数

操作 Scala 集合时,一般会进行两类操作:转换操作(transformation )和行动操作(actions)(有些人喜欢叫他为聚合操作)。第一种操作类型将集合转换为另一个集合,第二种操作类型返回某些类型的值。1、mapmap 是 Scala 集合最常用的一个函数。它的功能十分强大:valnumbers= Seq(1,2,3,4,5,6) //List(2, 4, 6, 8

2018-01-10 17:23:15 9449

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

企业数据安全中的数据脱敏 阿里巴巴

2021-09-10

腾讯大数据安全体系架构与介绍.pdf

腾讯大数据安全体系介绍

2021-09-10

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除