自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

涤生大数据

在职大数据架构专家，擅长大数据开发，组件调优，集群运维架构。当前管理1500+节点大数据集群，100PB+数据，爱好python，爬虫。免费给所有转行大数据小白，大数据初级开发者提供职业规划和学习定制建议，欢迎大家交流

12月 11月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 linux突然所有命令都失效了，显示bash: xxxxx: command not found...

昨天因为用虚拟机调试程序，然后下班时不正常关机，今天突然打开linux系统使用时，无论输入任何命令都显示bash: xxxx: command not found...,比如cd 显示bash: cd : command not found... 比如ls,显示bash: ls: command not found...。再比如hadoop fs -ls /robot bash: hadoo

2018-01-27 21:22:13 38584 13

原创 Scala系列2：Scala的概述安装以及开发工具的配置

1- 什么是Scala（ Scalable Language） Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。（所以打包的scala程序可以用java -jar 或者scala执行），同时scala也是大数据中实时计算框架的Spark的编程语言。2-为什么要学Scala1...

2018-01-22 21:05:54 7015

原创 linux中tree工具命令的使用

一：tree工具功能说明：以树状图列出目录的内容，让你一目了然语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式>][目录...]补充说明：执行tree指令，它会列出指定目录下的所有文件，包括子目录里的文件。安装演示：一般linux系统不会自带tree工具，要手动安装：yum -y install tree命令参数：t...

2018-01-22 20:28:13 15502

原创关于HDFS中数据块block的设计和原理

HDFS，全称Hadoop Distributed FileSystem.是一个文件系统，用于存储文件，通过目录树/来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色（在一些非正式的文档或者旧文档中，也简称DFS）。1.HDFS的设计特点： ①可以进行超大文件存储 ②对商用硬件要求不高

2018-01-21 02:09:05 15944 4

原创 hadoop之大数据生态系统的前世今生

一、从Hadoop框架讨论大数据生态1.1 Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈1.2 Hadoop发展历史1）Lucene--Doug Cutting开创的开源软件，用java书写

2018-01-21 00:26:46 3224

原创 combiner函数的使用注意事项和代码演示

1.Combiner功能是：合并汇总(shuffle中的组件)1）combiner是MR程序中Mapper和Reducer之外的一种组件。2）combiner组件的父类就是Reducer，也就是说combiner是继承之reducer的，相当于reducer3）combiner和reducer的区别在于运行的位置：Combiner是在每一个maptask所在的节点运行，然后Reduce

2018-01-20 23:40:20 5588 2

原创为什么要使用分布式存储和分布式计算？

在这个数据爆炸的时代，产生的数据量不断地在攀升，从Gb,Tb,Pb,Zb.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据

2018-01-20 20:51:40 16016 1

原创大数据开发要知道的关于AVRO的知识

Avro是apache Avro的简称，其实是一个独立于编程语言的数据序列化系统，设计用于支持大批量数据交换的应用。干过大数据都知道，hadoop自身提供了一个轻量级的序列化的系统Writable.虽然这个Writable相比Java提供的系列化Serializable更加轻便简洁好用，但是Writable类型也有很多不足，比如缺乏语言的可移植性，不能让Writable类型处理的数据在java，C

2018-01-18 16:32:07 4757

原创虚拟机可以ping通外网和本地网络，但本地网路ping不通虚拟机的解决办法？

问题：有时候用虚拟机开发测试时，会突然发现用secure CRT等软件远程连接不了本地虚拟机，但是从虚拟机里面可以ping通百度或者本地localhost，虚拟机之间也可以互相ping通。但是反过来在cmd里面的DOS窗口却ping不通虚拟机？显示主机名错误或者其他什么原因？解答：首先如果是ping IP地址从DOSping不通虚拟机，而反过来可以，那是因为没有本地的虚拟网卡没有配

2018-01-18 16:02:02 11822 4

原创 linux开发中常用的工具之netcat(nc瑞士军刀)

一：什么是瑞士军刀（netcat/nc)? netcat被誉为网络安全界的‘瑞士军刀’，简称nc.一个简单而有用的工具，透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门(back-end)工具，能够直接由其它程序和脚本轻松驱动。同时，它也是一个功能强大的网络调试和探测工具，能够建立你需要的几乎所有类型的网络连接. 使用之前首先我们要弄明白ne

2018-01-14 16:23:30 11043

原创 Flume的多层代理和防止数据丢失

实际开发中，当我们用Flume采集日志时，由于数据源的

2018-01-12 13:02:15 18831 22

原创开发中Flume的扇出机制的使用

实际开发中，flume的代理往往是多层嵌套的拓扑结构。所谓fan out(扇出)指的的是从一个source源向多个channnel,也就是向多个sink传递事件。正常的扇出流默认是向所有的channel复制事件，不过这个也是自定义选择的，比如可以通过source上设置一个复用选择器（multiplexing selector)来实现一些事件被送到指定的channel，另外一些事件被送到另一个c

2018-01-12 11:49:23 3187

原创 Flume开发中常用组件source,channel,sink等配置

实际开发中Flume中常用的source源，sink，channel，intercepertor等介绍，而实际上关于agent代理中设置选项有很多，具体要到官网去查看。

2018-01-11 22:27:23 3012

原创 Flume的拦截器和分区使用

实际开发中，为了对数据集的方便查询和使用，大型数据集常常被组织为分区（partition）。Flume事件的数据通常按时间来分区。比如把flume监听的数据写入到hdfs中时，就可以进行按时间分区，只需要对hdfs.path的属性进行设置如下： agent.sinks.sink1.path=/data/flume/year=%Y/month=%m/day=%d

2018-01-11 21:33:43 8345 1

原创 Flume的事务机制和可靠性

实际开发中，或者在面试中，总会碰到诸如Flume如何保证数据传输的完整性？一：Flume的事务机制所以这就不得不提Flume的事务机制（类似数据库的事务机制）：Flume使用两个独立的事务分别负责从soucrce到channel，以及从channel到sink的事件传递。比如以上面一篇博客中的事例为例：spooling directory source 为文件的每一行创

2018-01-11 19:10:38 15082

原创 Flume系列2：Flume的安装与常见配置使用

1.Flume的安装使用Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境和安装了java虚拟机环境。 1.上传安装包到数据源所在节点上 2.然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 3.然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOME

2018-01-11 18:17:13 3113

原创 Flume系列1：为什么需要flume以及flume的原理

1.为什么要有flume? flume的设计宗旨是向hadoop集群批量导入基于事件的海量数据。一个典型的例子就是利用flume从一组web服务器中收集日志文件，然后把这些文件中的日志事件转移到一个新的HDFS汇总文件中以做进一步的处理，所以flume的终点sink一般是HDFS,当然因为flume本生的灵活性，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外

2018-01-11 13:00:59 7692

原创 scala中常用的10个函数

操作 Scala 集合时，一般会进行两类操作：转换操作（transformation ）和行动操作（actions）（有些人喜欢叫他为聚合操作）。第一种操作类型将集合转换为另一个集合，第二种操作类型返回某些类型的值。1、mapmap 是 Scala 集合最常用的一个函数。它的功能十分强大：valnumbers= Seq(1,2,3,4,5,6) //List(2, 4, 6, 8

2018-01-10 17:23:15 9449

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

企业数据安全中的数据脱敏阿里巴巴

2021-09-10

腾讯大数据安全体系架构与介绍.pdf

腾讯大数据安全体系介绍

2021-09-10

Python3.5官方文档中文版本chm格式

python3.5版本，官方文档中文版，已经集成为chm格式，直接打开即可使用，更加方便好操作。免费下载吧

2018-09-06

程序员的薪资天花板是多少？

2021-11-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除