aeluwl2038-CSDN博客

转载 Sqoop

大数据技术之Sqoop第1章 Sqoop简介Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年...

2019-07-03 09:53:00 277

转载 Python正则表达式

正则表达式：正则表达式测试工具，创建一个正则表达式后，需要测试该正则表达式是否正确，使用正则表达式测试工具"Notepad++"来测试正则表达式。操作步骤：打开"Notepad++"软件，点击"搜索"菜单下的查找，在弹出的对话框的左下角"查找模式"选项里点选"正则表达式"，在正上方的输入文本框里输入正则表达式即可搜索匹配的字符串了。正则表达式 - 符号+ ：号代表前面的字符必须至少...

2019-06-13 14:27:00 177

转载 Spark-PySpark sql各种内置函数

_functions = { 'lit': 'Creates a :class:`Column` of literal value.', 'col': 'Returns a :class:`Column` based on the given column name.'根据给定的列名返回一个：class：`Column` 'column': 'Returns...

2019-05-08 09:41:00 1116

转载 Spark译文(三)

Structured Streaming Programming Guide(结构化流编程指南)Overview(概貌)·Structured Streaming是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。·您可以像表达静态数据的批处理计算一样表达流式计算。·Spark SQL引擎将负责逐步和连续地运行它，并在流数据继续到达时更新最终结果。·您可以使用...

2019-04-29 14:48:00 872

转载 Spark译文(二)

PySpark Usage Guide for Pandas with Apache Arrow(使用Apache Arrow的Pandas PySpark使用指南)Apache Arrow in SparkEnsure PyArrow InstalledEnabling for Conversion to/from PandasPandas UDFs (...

2019-04-29 13:15:00 562

转载 Spark译文(一)

Spark Overview(Spark概述)·Apache Spark是一种快速通用的集群计算系统。·它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。·它还支持丰富的高级工具集，包括用于SQL和结构化数据处理的Spark SQL，用于机器学习的MLlib，用于图形处理的GraphX和Spark StreamingSecuri...

2019-04-24 16:01:00 428

转载 YARN详解

1.1 分布式资源调度框架1.2.1 yarn的概念Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。...

2019-04-24 10:06:00 436

转载 Spark2.X管理与开发

==========第一篇：Scala编程语言=========一、Scala语言基础1、Scala语言简介Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。它也能运行于CLDC配置的Java ME中。目前还有另一.NET平台的实现，不过该版本更新有些滞后。...

2019-04-18 14:41:00 375

转载 Hadoop2.X管理与开发

Hadoop 2.X 管理与开发一、Hadoop的起源与背景知识（一）什么是大数据大数据（Big Data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5个特征（IBM提出）：l Volume （大量）l Velocity（...

2019-04-16 13:31:00 497

转载离线综合案例

目标v 理解网站点击流数据分析的业务背景v 理解网站点击流数据分析中常用分析指标的业务含义v 掌握网站点击流数据分析系统的技术架构v 掌握网站点击流数据分析系统中各环节的技术实现v 能独立设计完成一个初步的网站点击流数据分析系统网站点击流数据分析，业务知识，推荐书籍：《网站分析实战——如何以数据驱动决策，提升网站价值》王彦平，吴盛锋编著1. 网站...

2019-04-11 16:46:00 287

转载 HADOOP高可用机制

HADOOP高可用机制HA运作机制什么是HAHADOOP如何实现HAHDFS-HA详解HA集群搭建目标：掌握分布式系统中HA机制的思想掌握HADOOP内置HA的运作机制掌握HADOOP2.x的HA集群机制配置1 Hadoop的HA机制前言：正式引入HA...

2019-04-11 15:57:00 177

转载 HDFS详解

HDFS详解大纲Hadoop HDFS分布式文件系统DFS简介HDFS的系统组成介绍HDFS的组成部分详解副本存放策略及路由规则命令行接口Java接口客户端与HDFS的数据流讲解目标：掌握hdfs的sh...

2019-04-11 15:49:00 414

转载 HBase详解

1. hbase简介1.1. 什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现，...

2019-04-11 15:30:00 577

转载大数据计算

实时计算：flume+kafka+storm/sparkstreaming+redis/hbase离线计算：flume/ftp/sqoop(获取数据)+hdfs(存储数据)+hive(数据仓库)+SparkSQL(进行数据离线计算)+sqoop+mysql/hbase/redis(计算后的数据存储)Flume采集实现1、在若干个服务器上部署agent节点，修改配置文件2、启动agen...

2019-04-09 10:59:00 129

转载 Flume+Sqoop+Azkaban笔记

大纲（辅助系统）离线辅助系统数据接入Flume介绍Flume组件Flume实战案例任务调度调度器基础市面上调度工具Oozie的使用Oozie的流程定义详解数据导出sqoop基础...

2019-04-09 09:28:00 2030

转载 Kafka知识总结

1、kafka是什么类JMS消息队列，结合JMS中的两种模式，可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer：生产者，只负责数据生产，生产者的代码可以集成到任务系统中。数据的分发策略由producer决定，默认是defaultPartition Utils.abs(key.hashCode...

2019-04-09 09:00:00 88

转载 Kafka集群安装部署、Kafka生产者、Kafka消费者

Storm上游数据源之Kakfa目标：理解Storm消费的数据来源、理解JMS规范、理解Kafka核心组件、掌握Kakfa生产者API、掌握Kafka消费者API。对流式计算的生态环境有深入的了解，具备流式计算项目架构的能力。大纲：1、 kafka是什么？2、 JMS规范是什么？3、为什么需要消息队列？4、 Kafka核心组件5、 Kafka安...

2019-04-08 17:59:00 389

转载 Hive详解

1. Hive基本概念1.1 Hive简介1.1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。1.1.2 为什么使用Hive面临的问题人员学习成本太高项目周期要求太短我只是需要一个简单的环境MapReduce如何搞定复杂查询好难Joi...

2019-04-08 17:37:00 728

转载 Spark面试相关

Spark Core面试篇01一、简答题1.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，Driver和Application以及Executors。standby节点要从zk中获...

2019-04-04 09:26:00 650

转载 HDFS常用操作命令

1. 文件操作(1) 列出HDFS下的文件/usr/local/hadoop$bin/hadoop dfs -ls /(2) 列出HDFS文件下名为in的文档中的文件/usr/local/hadoop$bin/hadoop dfs -ls in(3) 上传文件将hadoop目录下的test1文件上传到HDFS上并重命名为test：/usr/...

2019-03-27 14:53:00 109

转载 Spark SQL

Spark SQL and DataFrame1. 目标1.1. 掌握Spark SQL的原理1.2. 掌握DataFrame数据结构和使用方式1.3. 熟练使用Spark SQL完成计算任务2. Spark SQL2.1. Spark SQL概述2.1.1. 什么是Spark SQLSpark SQL是Spark用来处理结构化数据...

2019-03-15 17:33:00 101

转载 Spark Streaming

Spark Streaming1. 目标1.1. 掌握Spark Streaming的原理1.2. 熟练使用Spark Streaming完成流式计算任务2. Spark Streaming介绍2.1. Spark Streaming概述2.1.1. 什么是Spark StreamingSpark Streaming类似于Apache S...

2019-03-15 17:31:00 94

转载 Spark RDD

Spark计算模型1. 目标1.1. 熟练使用RDD的算子完成计算1.2. 掌握RDD的原理2. 弹性分布式数据集RDD2.1. RDD概述2.1.1. 什么是RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD...

2019-03-15 17:22:00 86

转载大数据面试

1.kafka的message包括哪些信息？一个Kafka的Message由一个固定长度的header和一个可变长的消息体body组成，header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式...

2019-03-15 17:10:00 70

转载 Spark多种运行模式

1.测试或实验性质的本地运行模式(单机)该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算，通常用来验证开发出来的应用程序逻辑上是否有问题。其中N代表可以使用N个线程，每个线程拥有一个core。如果不指定N，则默认是1个线程（该线程有1个core）。如果是local[*]，则代表 Run Spark locally with as many wor...

2019-03-14 16:41:00 219

转载 Linux若干源码编译

Spark源码编译：dev/目录下执行make-distribution.sh./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz Pyarn -Phadoop-2.6-Phive -Phive-thriftserver -Dhadoop.version-2.6.0-cdh5.7.0python3源码安装编译：下载...

2019-03-08 17:28:00 52

转载 Spark SQL笔记

HDFSHDFS架构1、Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2、一个文件会被拆分成多个块(Block)默认：128M例: 130M ==> 128M + 2M3、NameNode、DataNode负责内容：NN：1)负责客户端请求的响应2)负责元数据(文件名称、副本系数、Block存放的DN)的管理DN：1)存储用的文件对...

2019-03-06 14:37:00 216

转载 Spark之standalone模式

standalone hdfs:namenode是主节点进程，datanode是从节点进程 yarn：resourcemanager是主节点进程，nodemanager是从节点进程 hdfs和yarn是hadoop里面的节点进程信息在spark里面有 master：主节点进程 worker：从节点进程使用standalone模式：将$SPARK_HOME/conf/目录下的sla...

2019-03-05 16:14:00 282

转载 Linux下HBase和Maven的环境搭建

Maven环境部署如下：maven下载并进行环变量配置export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9export PATH=$MAVEN_HOME/bin:$PATH执行该命令source ~/.bash_profile 使环境变量生效在$MAVEN_HOME/bin目录下输入mvn -v配置文件位置：$MA...

2019-03-01 14:34:00 277

转载 Spark Streaming笔记

Spark Streaming学习笔记liunx系统的习惯创建hadoop用户在hadoop根目录(/home/hadoop)上创建如下目录app 存放所有软件的安装目录app/tmp 存放临时文件data 存放测试数据lib 存放开发用的jar包software 存放软件安装包的目录source 存放框架源码hadoop生态系统 CDH5.7.x地址：http://ar...

2019-02-28 15:26:00 97

转载 Scrapy基本命令

全局命令，不用在项目中运行fetch：爬取网页，不依赖爬虫项目直接爬网页信息，并显示爬取过程scrapy命令格式：scrapy 命令名 --参数，可能通过--控制，例如：scrapy fetch -h fetch相关的使用方式spider命令：进行文件所在目录后，通过scrapy runspider 文件名(对文件进行运行)shell命令：启动scrapy交互终端，主要是在开发调试的时候...

2019-02-25 13:31:00 208

转载 Linux环境下的Scala环境搭建

1.下载tag软件包后，我习惯放到software文件夹下，并建立app文件夹2.通过tar -zxvf scala-2.12.8.tgz -C ~/app/ 命令解压到app目录下(-C 是指定目录)3.配置环境变量：我习惯通过vim ~/.bash_profile进行编辑并添加环境变量　　export SCALA_HOME=/home/...安装目录.../scala-2.12....

2019-02-25 12:45:00 207

转载 Linux基本操作

普通用户切换root用户命令：sudo su 密码：自己设定高的密码touch data1.log（创建文件）echo hello >> data1.log(指定文件data1.log后添加内容hello)虚拟机centOS 6.4关闭防火墙需要在root用户下：# service iptables status --查看防火墙状态# chkconfig ...

2019-02-25 12:30:00 49

转载 MySQL常用操作

Win7登陆MySQL数据库进入目录：cd 安装目录\bin后，执行命令mysqld -install安装mysql服务，服务安装成功后，执行net start mysql命令启动Mysql服务。输入：mysql -u root -p 密码：xxxx这时报错pymysql.err.OperationalError: (1045, u"Access denied for user 'r...

2019-02-25 12:28:00 94

转载 PySpark笔记

spark源码位置：https://github.com/apache/sparkSpark Core核心RDD及编程什么是RDD：1.是一个抽象类不能直接使用，在子类中实现抽象方法2.带泛型的，可以支持多种类型：例如可以传入string，person，user3.弹性分布式数据集，一个不可变的,可并行操作的元素分区集合RDD都有五个主要特性:1.-分区列表：一个RDD由多个...

2019-02-25 12:18:00 685

转载 Linux环境下配置及启动Hadoop(伪集群)

1.下载tag软件包后，我习惯放到software文件夹下，并建立app文件夹2.通过tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/ 命令解压到app目录下3.配置环境变量：通过vim ~/.bash_profile进行编辑　　export HADOOP_HOME=/home/安装目录/hadoop-2.6.0-cdh5.7.0 　...

2019-02-25 11:31:00 390