远有青山-CSDN博客

转载 HTTP 协议

HTTP请求：Hyper Text Transfer Protocol的缩写，即超文本传输协议。请求头GET ：获取一个资源，同时参数直接跟在URL后面,url长度受限制2048字节POST：不仅可以获取资源，还可以提交资源（譬如上传文件），参数放在请求体中，包大小4GHEAD：只要响应头，没有响应体，通常用于测试URL是否存在DELETE:删除一个资源PUT：通常修改一个资源常用的头字段Host：ip 指定主机名称Connection:Keep-Alive 或者 close 建立

2021-07-01 16:23:39 821

转载浅谈SSL/TLS工作原理

浅谈SSL/TLS工作原理肖宏辉网络/OpenStack/SDN/NFV搬运工695 人赞同了该文章（PS：说好的OpenStack Neutron VXLAN实现下一次再说）为了保证网络通信的安全性，需要对网络上传递的数据进行加密。现在主流的加密方法就是SSL (Secure Socket Layer)，TLS (Transport Layer Security)。后者比前者要新一些，不过在很多场合还是用SSL指代SSL和TLS。先来回顾一下网络通信加密的发展过程，假

2021-06-30 09:55:34 586

转载网络安全滑动标尺模型

网络安全滑动标尺模型对组织在威胁防御方面的措施、能力以及所做的资源投资进行分类，详细探讨了网络安全的方方面面。该模型可作为了解网络安全措施的框架。模型的标尺用途广泛，如向非技术人员解释安全技术事宜，对资源和各项技能投资进行优先级排序和追踪、评估安全态势以及确保事件根本原因分析准确无误。作者：罗伯特梅里尔.李（Robert M. Lee）执行摘要网络安全滑动标尺模型是针对网络安全活动和投资领域进行详细探讨的模型。该模型包含五大类别：架构安全、被动防御、主动防御、威胁情报和进攻。这五大类别构成.

2021-06-30 09:51:46 4424

转载 spark学习-16-Spark的Map()和FlatMap()函数使用

2019-10-14 11:58:24 1949 1

转载 hive常见优化问题汇总

一、总体思想http://blog.csdn.net/u011750989/article/details/120243011、让服务器尽可能的多做事情，榨干服务器资源，以最高系统吞吐量为目标再好的硬件没有充分利用起来，都是白扯淡。比如:(1) 启动一次job尽可能的多做事情，一个job能完成的事情,不要两个job来做通常来说前面的任务启动可以稍带一起做的事情就一起做了...

2019-09-07 00:07:09 577

转载聊聊同步、异步、阻塞与非阻塞

近来遇到了一些常见的概念，尤其是网络编程方面的概念，如：阻塞、非阻塞、异步I/O等等，对于这些概念自己也没有太清晰的认识，只是很模糊的概念，说了解吧也了解，但是要让自己准确的描述概念方面的具体细节，却说的不那么准确，这也是自己在这几个方面也没有细细考究过的原因吧。经过看了些这几个概念的资料，发现同步、异步、阻塞、非阻塞的概念其实也并不难以理解，在此写下此文，欢迎拍砖，希望多多交流。1 同步与异...

2019-01-21 15:38:21 404

转载聊聊Linux 五种IO模型

上一篇《聊聊同步、异步、阻塞与非阻塞》已经通俗的讲解了，要理解同步、异步、阻塞与非阻塞重要的两个概念点了，没有看过的，建议先看这篇博文理解这两个概念点。在认知上，建立统一的模型。这样，大家在继续看本篇时，才不会理解有偏差。那么，在正式开始讲Linux IO模型前，比如：同步IO和异步IO，阻塞IO和非阻塞IO分别是什么，到底有什么区别？不同的人在不同的上下文下给出的答案是不同的。所以先限定一下...

2019-01-21 15:35:18 2271

转载高性能的IO体系设计同步异步阻塞非阻塞

在高性能的IO体系设计中，有几个名词概念常常会使我们感到迷惑不解。具体如下：序号问题 1 什么是同步？ 2 什么是异步？ 3 什么是阻塞？ 4 什么是非阻塞？ 5 ...

2019-01-21 11:09:52 390

转载 Spark原理

一、Spark原理 1、Spark的运行原理i、分布式Ii、主要基于内存（少数情况基于磁盘）Iii、迭代式计算2、Spark 计算模式 VS MapReduce 计算模式对比 Mr这种计算模型比较固定，只有两种阶段，map阶段和reduce阶段，两个阶段结束后，任务就结束了，这意味着我们的操作很有限，只能在map阶段和reduce阶段，也同时意味着可能需要...

2018-07-03 11:23:11 1091

转载 MongoDB + Spark: 完整的大数据解决方案

http://blog.csdn.net/u010385646/article/details/52712605Spark介绍按照官方的定义，Spark 是一个通用，快速，适用于大规模数据的处理引擎。通用性：我们可以使用Spark SQL来执行常规分析， Spark Streaming 来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持也是其通用性的表...

2018-03-20 16:32:03 1762

转载 oracle的空间数据库

oracle的空间数据库: 2007-12-21 16:31:12 分类： Oracle 简单研究一下，收藏，详细内容看下面[@more@]1. 什么是oracle的空间数据库

2018-01-19 14:27:25 2434

转载 Spark编程指南——Python版

摘要：对于1个年仅5岁的开源项目来说，其远谈不上尽善尽美，就比如文档相关。本文翻译自Spark Programming Guide，选取了其中使用Python的部分。自开源之日至今，Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处理引擎的有力竞争者，Spark一直保持着小而紧凑，使许多开发人员更容易理解，也让升级起来更加方便。快、通用让Spark如鱼得水，然而对于1个年仅5

2018-01-16 15:50:34 1283

转载 Hive UDF开发指南

https://www.cnblogs.com/hd-zg/p/5947468.html编写Apache Hive用户自定义函数（UDF）有两个不同的接口，一个非常简单，另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型（Hadoop&Hive 基本writable类型，如Text,IntWritable,LongWriable,DoubleWrit

2018-01-12 17:10:03 917

转载【Hive七】Hive用户自定义聚合函数(UDAF)

用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Java代码 Double evaluate(Double a, Doub

2018-01-11 18:05:43 1552

转载数据预处理_数据清理

1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰，因为数据库太大，并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术：- - 数据清理：可以用来清楚数据中的噪声，纠正不一致。 - - 数据集成：将数据由多个数据源合并成一个一致的数据存储，如数据仓库。 - - 数据归约：可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数

2018-01-11 15:40:53 32024 1

转载 ETL处理过程介绍

为提高数据仓库数据质量，需要在ETL过程进行数据清洗。本文首先提出了ETL过程进行数据清洗应解决的问题，然后通过分析现有的ETL处理方式说明应采用数据库中的ETL处理，介绍了数据质量和数据清洗的原理并提出了数据清洗在ETL中的应用模型，最后通过实例说明数据清洗的具体实现。 1 前言ETL即数据抽取（Extract）、转换（Transform）、装载（Load）的过程。

2018-01-11 15:15:34 2555

转载 ETL工具总结

ETL工具总结ETL的考虑做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是倒数据的工具。回忆一下工作这么些年来，处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量，使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中，ETL上升到了一定的理论高度，和原来小打小闹的工具使

2018-01-11 11:47:59 834

转载 ETL介绍与ETL工具比较

ETL介绍与ETL工具比较转载 2017年03月04日 16:10:30标签：ETL本文转载自：http://blog.csdn.net/u013412535/article/details/43462537ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过萃取（extract）、转置

2018-01-11 10:08:48 1063

转载最详细大数据项目落地路线图实践总结

最详细大数据项目落地路线图实践总结 2017-01-14 16:38大数据今天，来谈一谈“大数据项目如何落地？”这个话题。从事过多个大数据项目的规划方案及项目落地工作，在这里与大家分享一些心得，主要是关于大数据项目如何成功落地并取得预期目标，也可以说这些是实践出来的观点。对于一个大数据应用项目/产品的落地，可以大致总结为五大步骤阶段：数据规划、数据治理、数据应用、迭代实

2018-01-07 00:32:16 15460 1

转载 ArcGIS矢量数据模型

在过去20年中，矢量数据模型是GIS中变化最大的方面，例如，ESRI公司所开发每种新软件包都对应一种新的矢量数据模型，ArcView对应Shapefile，Arc/Info对应Coverage，ArcGIS对应Geodatabase。Shapefile和Coverage是地理关系数据模型，它利用分离的系统来存储空间数据和属性数据，而Geodatabase是基于对象数据模型，它把空间数据和属性数据存

2017-12-01 14:41:33 6033

转载架构设计：系统存储（20）——图片服务器：需求和技术选型（2）

v3-5、其它技术选型说明3-5-1、关于关系型数据库关于持久化存储的数据库技术要注意一点，实际上它并不是图片服务的必要组件。例如，我们在进行设计时可以将图片访问的URL地址直接对应图片文件在服务器上的存储地址，并按照一定的规则将图片文件重命名成一个系统中唯一的文件名，最后再删除Redis和Nginx Proxy Cache中可能存在的历史文件数据。这样就算没有数据库技术，

2017-11-24 09:44:52 1411

转载 Hive集成Mysql作为元数据

Hive集成Mysql作为元数据默认情况下，Hive元数据保存在内嵌的 Derby 数据库中，只能允许一个会话连接，只适合简单的测试。为了支持多用户多会话，则需要一个独立的元数据库，我们使用 MySQL 作为元数据库，Hive 内部对 MySQL 提供了很好的支持，配置一个独立的元数据库需要增加以下几步骤:第一步:安装MySQL服务器端和MySQL客户端,并启动MySQL服务。此步

2017-11-06 16:24:29 617

转载 Hive学习之Metastore及其配置管理

在学习Hive的配置管理参数时，曾将参数分为四类：Hive管理参数、Hive元存储（Metastore）管理参数、与Hadoop交互的管理参数、用于传递运行时信息的参数，当时并没有对Metastore参数进行深入的学习，现在就开始学习这部分的内容。 Hive中表和分区的所有元数据都存储在Hive的元存储（Metastore）中。元数据使用JPOX（Java Persistent O

2017-11-06 15:11:44 2659

转载 Spark性能优化指南——基础篇

http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=timeline&isappinstalled=0#rd Spark性能优化指南——基础篇

2017-10-23 15:59:26 295

转载 spark submit参数调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪

2017-10-21 17:21:39 792

转载 IMPDP命令

一、创建逻辑目录，该命令不会在操作系统创建真正的目录，最好以system等管理员创建。 create directory dpdata as '/opt';二、查看管理理员目录（同时查看操作系统是否存在，因为Oracle并不关心该目录是否存在，如果不存在，则出错） select * from dba_directories;三、给scott用户赋予在指定

2017-09-12 11:49:40 15987

转载 Spark SQL 官方文档-中文翻译

转载请注明出处：http://www.cnblogs.com/BYRans/1 概述（Overview）2 DataFrames2.1 入口：SQLContext（Starting Point: SQLContext）2.2 创建DataFrames（Creating DataFrames）2.3 DataFrame操作（DataFrame Operations）2.4 运

2017-09-01 16:11:59 878

转载 Hive2.0函数大全(中文版)

Hive2.0函数大全(中文版)摘要Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数Return TypeName (Signatu

2017-08-31 15:17:10 371

转载 Spark 学习入门教程

一、环境准备测试环境使用的cdh提供的quickstart vmHadoop版本：2.5.0-cdh5.2.0Spark版本：1.1.0二、Hello Spark将/usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar移动到/usr/lib/spark/lib/

2017-08-30 08:33:21 634

转载 Hive 中SerDe概述

一、背景1、当进程在进行远程通信时，彼此可以发送各种类型的数据，无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输，称为对象序列化；接收方则需要把字节序列恢复为对象，称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数据进行转换，

2017-08-28 09:23:25 3424

转载 Spark程序模型

下面通过一个经典的示例程序来初步了解Spark的计算模型，过程如下。 1）SparkContext中的textFile函数从HDFS读取日志文件，输出变量file。val file=sc.textFile("hdfs://xxx") 2）RDD中的filter函数过滤带“ERROR”的行，输出errors（errors也是一个RDD）。val errors=file.fil

2017-08-26 15:29:02 657

转载 spark所支持的文件格式

spark所支持的文件格式 1.文本文件在 Spark 中读写文本文件很容易。当我们将一个文本文件读取为 RDD 时，输入的每一行都会成为RDD 的一个元素。也可以将多个完整的文本文件一次性读取为一个 pair RDD，其中键是文件名，值是文件内容。在 Scala 中读取一个文本文件12val inpu

2017-08-26 15:11:11 5663

转载 Hive的数据存储

Hive的数据分为表数据和元数据，表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。下面分别来介绍。一、Hive的数据存储在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的，它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式，也没

2017-08-26 15:01:01 19825 1

转载 hive 内部表和外部表的区别和理解

1.创建内部表与外部表的区别是什么？2.external关键字的作用是什么？3.外部表与内部表的区别是什么？4.删除表的时候，内部表与外部表有什么区别？5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的？6.磁盘，hdfs,hive表他们之间的过程是什么样子的？好了，进

2017-08-26 12:00:23 825

转载 SQL中LIKE模糊查询与REGEXP用法说明

最近在优化WordPress数据库的时候，对一些问题通常都是通过搜索来寻求答案，不过在这期间，大多数的WordPress都用到了模糊查询来进行数据库的操作，现在小觉就其中的LIKE模糊查询与REGEXP各种用法及对特殊字符进行记录。首先说下LIKE命令都涉及到的通配符：% 替代一个或多个字符_ 仅替代一个字符[charlist] 字符列中的任何单一字符[^charl

2017-08-26 11:47:57 29423

转载 Thrift

Thrift 是什么？ Thrift源于大名鼎鼎的facebook之手，在2007年facebook提交Apache基金会将Thrift作为一个开源项目，对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。所以thrift可以支持多种程序语言，例如: C++, C#, Cocoa, Erl

2017-08-26 11:11:55 815

转载 linux查找目录下的所有文件中是否含有某个字符串

查找目录下的所有文件中是否含有某个字符串 find .|xargs grep -ri "IBM" 查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名 find .|xargs grep -ri "IBM" -l 1.正则表达式（1）正则表达式一般用来描述文本模式的特殊用法，由普通字符（例如字符a-z）以及特殊字符（称为元字符，如/、*、?等）组成。（

2017-08-18 10:48:55 359

转载 Impala：新一代开源大数据分析引擎

原文发表在《程序员》杂志2013年第8期，略有删改。文 / 耿益锋陈冠诚大数据处理是云计算中非常重要的问题，自Google公司提出MapReduce分布式处理框架以来，以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础，之后的HBase，Hive，Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 –

2017-08-18 09:38:21 420

转载 mongodb数据库命令操作

上一节我们讲解了对于MongoDB的一些认识和概念，那么接下来就要切实步入mongodb的学习中了。mongodb不像关系型数据库有很强大的GUI客户端，虽然mongodb也有，但功能和稳定性实在不敢恭维，所以操作mongodb我们大部分都是用类似cmd命令的方式（mongodb称为shell操作）来完成，因此学好mongodb shell操作是非常重要的基础。一、准备工作1、下

2017-08-17 10:16:42 564

转载面向 DBA 的 Linux Shell 脚本简介

面向 DBA 的 Linux Shell 脚本简介作者：Casimir Saternos学习一些在 Linux 上安装、运行和维护 Oracle 数据库所需的基本 bash shell 脚本。本文相关下载：示例脚本 Oracle 数据库 10g 2005 年 11 月发表大约 7 年前，Orac

2017-08-16 14:34:34 501

USB设备驱动详解

存储必备资料

空空如也