自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

软通大学企业博客

北京软通动力教育科技有限公司

原创 00-为什么要做骑象人--解锁Hadoop高薪之路

为什么要做骑象人–解锁Hadoop高薪之路1.数据也疯狂数据和每个人甚至是每个时代都息息相关,即使你穿越到人类才刚刚学会使用工具的石器时代,假如你就是那个手握石斧,躲在草丛之后窥视一群肥羊的原始人,你都要在心理盘算着这样一堆数据,我已经2天没吃饭了,以现在的体力,我的奔跑速度只能抓到羊群中那只最小的羊,这只羊大约有30斤,我家里一家老小共5人,追到这只肥羊省着点吃,可以吃上3天…假如你还是一个...

2019-12-11 08:34:56 149

原创 00-开篇词-这些年受过的PPT的苦

开篇词:这些年受过的PPT的苦1 有一种头型叫地中海程序猿在外人看来从来都是一个神秘的团体,一提起程序猿,在大多数人眼里,程序猿的智商是这个样子的:程序员的工作环境是这个样子的:那些都是别人眼里的程序猿,下面才是程序员真实的样子:所以程序猿的御用贴图是这个样子的:好吧,这明显和大家心目中的大神形象完全不符,在大家心中,没有他们搞不定的事情,除非?除非什么?除非没有女朋友?不是,...

2019-12-11 08:08:00 149

原创 14-如何合-Partitioner&Combiner&Shuffle&OutputFormat解析

Hadoop Partitioner&Combiner&Shuffle&OutputFormat解析1 概述我们在本节的目标是关注数据的归并过程,包括Partitioner、Combiner、Shuffle&Sort以及OutputFormat等组件合过程。对于Partioner,我们将讨论什么是Hadoop Partitioner。MapReduce中的Pa...

2019-12-30 10:11:35 117

原创 13-如何分-InputFormat&InputSplit&RecordReader解析

Hadoop InputFormat&InputSplit&Recorder解析1 概述本节我们来介绍InputFormat、InputSplit以及Recorder,了解Hadoop是如何使用这些组件来分割数据的。我们从而掌握这些组件之间的联系和区别。2 Hadoop InputFormatHadoop InputFormat检查作业的输入规范。InputFormat将...

2019-12-30 10:09:34 108

原创 12-何为分,何为合-Mapper&Reducer介绍

Mapper&Reducer介绍1 Mapper&Reducer概述MapReduce是Hadoop进行数据处理的核心组件。Hadoop MapReduce是一个软件框架,通过它我们可以非常轻松的写出应用程序来处理存储在Hadoop分布式文件系统中的各种结构化和非结构化的数据。MapReduce工作分成两个阶段:Map阶段和Reduce阶段。每个阶段都以键值对作为输入和输出。...

2019-12-28 09:09:46 124

原创 11-合久必分,分久必合-MapReduce数据流

Hadoop 3.x 介绍本章目标Hadoop3.x新特性Hadoop2.x VS Hadoop3.xHadoop3.x的优势和劣势1 Hadoop3.x新特性Hadoop3.x的发布是Hadoop的里程碑。很多人都很关心Hadoop3.x相对于Hadoop2.x有哪些增强的特性。我们本节将介绍Hadoop3的新特性,并且让你知道它和旧版本有怎样的不同。在Hadoop3中有如下...

2019-12-28 09:09:05 114

原创 10-不去培育更大的象-MapReduce编程模型

Hadoop分布式缓存本章目标Hadoop分布式缓存Hadoop分布式缓存1 概述我们将在本节了解什么是Hadoop分布式缓存,在Hadoop框架中如何使用和实现分布式缓存。我们还将涉及分布式缓存的优势和限制。Apache Hadoop是一个开源软件框架。它是一个分布式存储系统也是一个大数据集处理系统。Hadoop遵守主从结构。在主节点上运行着NameNode,而从节点运行Data...

2019-12-25 12:32:08 115

原创 09-大象调度规则-作业调度

Hadoop调度器-Hadoop作业调度本章目标Hadoop调度器1 Hadoop调度器本节我们将介绍Hadoop调度器,首先,我们将了解什么是调度器,然后介绍Hadoop中调度器的类型,我们还会介绍每种调度器适合在何时使用,才能进行简单而高效的调度。最后,我们将进一步讨论Hadoop调度的开发以及调度方式。什么是Hadoop调度器Hadoop就是一个能够在分布式节点上高效完成处理...

2019-12-25 12:29:11 78

原创 08-永不停歇的大象-Hadoop高可用与自动故障转移

Hadoop高可用与自动故障转移本章目标什么是Hadoop高可用什么是故障转移自动故障转移1 什么是Hadoop高可用在Hadoop2.0之前,也就是Hadoop1.0面临NameNode的单点故障( single point of failure,SPOF)问题。这就意味着,如果NameNode失效则整个系统将失去功能,此时就需要人为介入,在宕机时间,利用secondary Na...

2019-12-25 12:28:42 173

原创 07-聊聊象群-介绍Hadoop集群

Hadoop集群介绍本章目标Hadoop集群概述Hadoop集群结构数据本地性1 Hadoop集群概述本节我们将了解Hadoop框架的核心内容,Hadoop集群。首先,我们需要了解什么是Hadoop集群,然后,我们将了解它的基本结构和协议,最后,我们将讨论Hadoop集群给我们带来的各种好处。接下来,我们就开始了解Hadoop集群。Hadoop集群就是一组计算机通过LAN进行连...

2019-12-25 12:28:19 101

原创 06-大象的局限-Hadoop局限及解决方案

Hadoop局限及其解决方案本章目标Hadoop概述Hadoop局限1 Hadoop概述尽管Hadoop是最强大的大数据处理工具,但是它也有各种局限,比如,Hadoop并不适合小文件,它不能处理实时数据,处理速度慢,迭代处理效率低,缓存效率低等等。在本节,我们首先学习介绍Hadoop,Hadoop的优劣,Hadoop哪些特点使其如此流行。接着,我们将介绍Hadoop的13个主要的缺...

2019-12-23 14:28:08 77

原创 05-大象与数据分析-Hadoop5大分析工具

Hadoop 5大分析工具-深入数据分析本章目标Hadoop的5大分析工具Hadoop的5大分析工具Hadoop是开源的分布式存储和数据处理框架。它出于大数据生态圈的中心。它被用于包括预测分析,数据挖掘以及机器学习在内的高级分析。Hadoop技术用于管理数据处理过程,为大数据应用程序存储数据。它可以处理各种结构化和非结构化的数据。下面我们来讨论Hadoop分析工具。1 Spark...

2019-12-23 14:26:16 117

原创 04-Hadoop为什么会跳舞-Hadoop是如何工作的

Hadoop内部是如何工作的-深入Hadoop本章目标Hadoop架构Hadoop工作原理Hadoop架构Apache Hadoop是一个开源软件框架,它以分布式的方式存储数据,并以并行的方式处理数据。Hadoop提供了世界上最可靠的存储层-HDFS,一个批处理引擎-MapReduce以及一个资源管理层-YARN。在本节,我们将深入Hadoop,了解Hadoop内部是如何工作的。...

2019-12-23 14:25:28 85

原创 03-不做盲人摸象-Hadoop架构详解

Hadoop架构详解-HDFS&Yarn&MapReduce本章目标Hadoop架构概述HDFSMapReduceYARNHadoop架构设计原则1. Hadoop架构概述Hadoop如今已经成为非常流行的解决方案。Hadoop在设计之初就考虑了各种问题,包括,容错、处理大数据集、数据本地化、不同硬件和软件平台间的可移植性等等。在本节,我们将详细介绍Hadoop...

2019-12-16 12:45:35 139

原创 02-大象和它的家人们-Hadoop生态圈详解

Hadoop生态圈及其组件介绍本章目标Hadoop生态圈组件1.Hadoop生态圈组件我们在前面已经概要介绍了Hadoop生态圈,我们本节将就Hadoop生态圈的各种组件进行详细介绍,包括各个组件的构成,其他特点,我们将学习包括HDFS及HDFS的组件,MapReduce,YARN,Hive,Apache Pig,Apache HBase及HBase组件,HCatalog,Avro,T...

2019-12-13 07:53:52 218

原创 01-大象你好-Hadoop介绍

Hadoop介绍本章目标Hadoop介绍Hadoop技术架构1 Hadoop介绍Hadoop是什么Apache Hadoop是用Java写的开源,可扩展、而且容错的数据处理框架Hadoop可以在普通硬件集群上高效处理大量数据集Hadoop不仅是一个存储系统,而且也是大数据的处理平台Hadoop是来自ASF(Apache Software Foundation)的开...

2019-12-11 12:33:40 106

原创 03-定制PPT主题

定制PPT主题1 概述默认的PPT主题非常单调,如果想制作极客范的PPT,我们需要定制PPT主题。Marp插件预览和导出PPT使用的主题是通过CSS样式文件控制的,就MarkDown而言,其渲染的预览效果也是由CSS样式控制,因此,如果想精确控制PPT的样式,就需要定制CSS样式表文件。Marp插件可以设置其预览和导出时所使用的CSS文件,我们在前面讲述VS Code安装Marp插件时,讲述...

2019-12-11 08:11:35 116

原创 02-用代码玩转PPT

用代码玩转PPT1 打造IDE1.1 工欲善其事,必先利其器在学习了MarkDown的基本语法之后,我们就可以开始打造PPT之旅了,但是在这之前,我们还有一件非常重要的事情,那就是来武装我们的IDE,让我们的IDE具备代码撸PPT的能力。我们需要用到的工具如下:Visual Studio Code下载地址:https://code.visualstudio.com本系列课程的主角...

2019-12-11 08:11:18 219

原创 01-治疗脱发从MarkDown语法开始

文章目录治疗脱发从MarkDown语法开始1 MarkDown概述1.1 极简是一种艺术1.2 MarkDown追求的就是简单1.3 MarkDown是什么1.4 MarkDown不是什么1.5 MarkDown应用1.6 编辑器1.7 一篇技术文章的最小格式要求2 MarkDown基本语法2.1 标题2.2 列表无序列表有序列表列表嵌套2.3 加粗和斜体2.4 代码块2.5 引用2.6 图片2....

2019-12-11 08:09:41 102

原创 easyUI和kindeditor的整合以及兼容问题处理

easyUI应用还是比较广泛的,可以较快速设计出一般的管理平台页面。kindeditor也是一个比较老牌的富文本编辑器,虽然16年后没再更新了,但能满足绝大多数的需求。但两者整合时还是会有一些兼容性问题,每次我都忘,网上也查不到,刚好写出来备忘。kindeditor单独页面使用时,先引入jquery,这里我引用的是easyui带的,本身kindeditor4支持jquery到3.X版本...

2018-11-26 17:22:50 659

原创 Maven web项目tomcat8.5 热部署

开发模式下我们多用IDE自带或关联本机的站点服务器,生产模式中,往往需要远程部署在远程计算机的站点服务器上,这里介绍下maven的web项目远程部署到tomcat上。IDE:eclipse4.7.1maven:3.6.0tomcat:8.5安装好相关软件,略修改tomcat的用户配置文件apache-tomcat-8.5.35\conf\tomcat-users.xml末尾...

2018-11-15 17:28:45 1957

原创 MAVEN+SSM+tomcat8.5整合

maven项目比起以前确实方便了很多,但依赖关系的维护还是比较麻烦(有条件的还是换springBoot吧),这里对maven的ssm整合做个完整案例maven:3.6jdk:1.8 64位windows:win10 企业版tomcat:8.5.35环境准备安装maven,配置环境变量(基本使用,可省略解压即可)Maven编译默认是jdk1.5,就算开发环境配置了,只要从新更新...

2018-11-15 17:28:26 1940

原创 SSM框架+kindeditor实现文件上传和图片回显

富文本编辑器为客户资料编辑带来很大遍历,很多新同学却不能实现其内带的文件上传,不能发挥其最大功能。这里使用SSM框架结合kindeditor实现其文件上传和图片回显功能。SSM框架(版本不重要)KindEditor 4.1.11 目前最新版本目录结构如下index.jsp就是测试页面,引入KindEditor要先引入jquery(主要引入2.x版本即可,太高不支持)<scri...

2018-11-15 16:34:13 1220

原创 python3爬虫session处理12306火车票动态图片验证码登录

一、 实现需求 1、 登录12306 用户名与密码是明码登录,无需处理 2、 动态图片验证码 是8张动态图片,图片很小 可能要选择图片中的1—3个不等图片 3、 查票与购票 要定位到登录url,及要提交的参数二、 实现原理 1、 采用session技术 尽管cookie与session本质上是一回事,但不能混用,要么采用cookie,要么采用 2、 采用PIL...

2018-06-22 16:55:40 2156 1

原创 python3爬虫session处理用户名密码动态名称登录后抓取信息

一、 本文实现需求 1、 登录用户名与密码的名称是动态的,动态爬取 2、 登录页面还有一些其他特征信息,动态爬取 3、 登录后,爬取页面任意数据 二、 登录原理 1、 相关处理技术 a) 采用requests的session进行get/post操作 b) 采用bs4分析页面数据 2、 页面抓取流程 通过chrome,打开登录页面,f12打开调试,network测...

2018-06-14 11:19:28 7297

原创 python日志公用文件设计-类似java的log4j

一、 实现目标 本文完成python环境下,类似java的log4j实现,有下面需求 1、 日志输出到控制台,同时可以输出到文件 2、 日志文件可以在任何目录 如果不指定目录,则自动在当前目录下 3、 文件以当天日期为名称,同一天日志自动追加 4、 日志输出要定位到:天-时-分-秒,当前文件名-日志代码所在行号:(回车)日志内容 日志最大不同于print是能定位到文件所在行...

2018-05-29 11:24:31 1672

原创 python解析excel文件多级标题嵌套行

一、 本文实现内容 用于解析excel2013数据文件的标题行,有下面需求 1、 标题行可能处在页面的任何位置 2、 标题行只能是字符串类型,最少有2个或以上字段 3、 标题行上边,或左边可能有任意多个空行 4、 标题行可能是多行,一个字段可能有N级子字段,可以是任意复杂的数据报表标题,例如财务数据的损益表 5、 标题行不能独立存在,最少有一个数据行,最少有一个字段不为空 ...

2018-05-25 16:32:17 2137

原创 JAVA实现内存对象和字符串的互转(非BASE64和json)

JAVA实现内存对象和字符串的互转(非BASE64和json)在很多地方,我们仍然需要纯字符串来进行数据的保存和传递、例如cookie、radis缓存等、这时如何将对象保存为对应的字符串形式就迫切需要了。有人可能会说用json就可以了,但我如果要存张图片呢?思路如下获得内存对象的字节数组将其重组为ISO-8859-1标准字符集的字符数组,刚好都是一一对应的这个字符串想保存在哪里都...

2018-05-17 18:14:25 586

原创 python的lambda与闭函数原理分析

一、 概述 本文分析python3的lambda与闭函数的实现原理,及多种用法示例 二、 lambda工作原理 1、 lambda定义 lambda 参数列表:1行代码表达式 表达式是一个函数的参数列表,可以有任意多个参数,参数可为任何类型 1行并且只能1行代码的表达式,不能多行代码,不同于java,没有{},begin/end等 2、 lambda可以出现的地方 list...

2018-05-09 14:49:18 663

原创 python类加载分析-类属性-实例方法-类方法-静态方法对比

一、 概述 本文对python3的类加载过程进行分析,python最核心原理,有下面内容 1、 类对象 2、 实例对象 3、 self变量名称问题 4、 类属性、实例变量、局部变量 5、 类方法 6、 实例方法 7、 类方法与实例方法相互调用 8、 静态方法 二、 pytyon类对象 1、 pytyon是脚本语言 pyton的代码在编绎时,无论是函数,...

2018-05-09 08:57:56 1529

原创 python处理json技术总结及与其他语言对比

一、 概述 json原本为javascript的标准数据类型,javascript object notation,这个数据格式广泛应用各类管理软件(java,php,c#)、大数据、人工智能中。 本文简要描述json用到的utf-8/unicode字符集,及python处理json相关技术 1、 python词典到json字符串,内存变量 2、 python词典到json字符串,写...

2018-05-04 14:45:50 340

原创 python装饰器的一些高级用法

一、 概述 本文简单介绍装饰设计模式的原理,及python3装饰器的下面几个实现 1. python函数装饰器 2. 带参数装饰 3. 一个方法的多次装饰 4. 类装饰器 二、 装饰器原理 python装饰器,就是设计模式中的装饰设计模式,属于结构类设计模式,具体内容是 对一个人、事、物进行点缀,这每一次点缀便是一次装饰,基本前提条件是不能破坏原有对象的结构。例如 1...

2018-05-03 14:30:34 314

原创 DOM4J读取和写入XML文件

DOM4J是JDOM的一种智能分支。它合并了许多超出基本XML文档表示的功能,包括集成的XPath支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。它还提供了构建文档表示的选项,它通过DOM4J API和标准DOM接口具有并行访问功能. DOM4J是JAVA特有的解析方法。需要先导入DOM4J的jar包才能调用对应方法。 dom4j-2.0.2.jar (一)jar包导...

2018-05-01 21:58:37 2863

原创 python语言的几个显著特点

pyton语言的几个显著特点概述     本文分析python下面几个显蓍特点    1. python基本特点及运行问题 2. python开发工具包 3. 代码块问题 4. 方法重载问题 5. 继承与多态问题 6. package-from-import-mai...

2018-04-29 00:16:34 3295

原创 python3正则表达式的几个高级用法

python3正则表达式的几个高级用法一、 概述 本文举例说明python3正则表达式的一些高级级法,主要是各类分组,可应用于 1、复杂网页文件中的有用数据 例如,采用爬虫技术取得网页后,对网页内任何数据进行提取分析 2、 各类配置文件 可能是属性文件,读取属性文件中的键值对 ...

2018-04-28 22:56:58 20506 1

原创 从Java一道简单的String面试题学习javap 命令的使用(一)

我们先来看一道简单的面试题:String str1="ab";String str2="a"+"b";System.out.println(str1==str2);作为身经百战的我们,当然知道这里的输出是true.What?不知道?不打紧的,且听我刘先生一一道来.懂得的人也不要跑,你是真正懂得了发生了什么,还是只是背了个面试题. 先来解析下答案,这道题输出为什么true...

2018-04-28 14:41:17 195

原创 一个java随机数据的工具类

获得随机数据工具类在一些业务还有测试中可能需要一些有实际意义的测试数据,编写这些数据可能比较头大,这里写了一个随机数据的工具类,具有以下功能:获得指定长度的随机大写、小写、数字字母获得随机的性别获得随机的中文姓氏获得随机的中文姓氏获得指定时间范围内的随机日期public class RandomValue { /** * * @param ln...

2018-04-20 18:07:11 560

原创 如何在windows下安装docker及oracle

如何在windows下安装docker及oracle1.下载docker-toolbox工具(http://mirrors.aliyun.com/docker-toolbox/windows/docker-toolbox/)2.下载对应版本的boot2docker放到C:\Users\Administrator.docker\machine\cache目录下(第一步安装完成后点击docker qui

2018-04-18 10:00:04 2441 1

原创 UML统一建模(语言)和数据库建模

UML统一建模(语言)和数据库建模UML统一建模语言(Unified Modeling Language )或标准建模语言,是始于1997年一个OMG标准,它通过图形化语言为软件开发中每个阶段(例如:需求分析到规格,到构造以及系统配置等)提供模型化和可视化的支持。UML中描述类和接口或者类和类之间关系如下: (1)泛化(Generalization): 在程序中表示继承关系用“”描述继...

2018-04-17 11:35:28 10432

原创 Angular知识图谱系列(二) -- 命令行工具

Created by 苑鹏掣

2018-04-17 10:52:25 278

提示
确定要删除当前文章?
取消 删除