大数据 Note
文章平均质量分 95
Hadoop\Spark
珞清殇
NEU大数据实验班,EMAIL:[email protected]
展开
-
Alink 初次使用出现的问题:ClassNotFoundException、NoClassDefFoundError、A JNI error
Alink- NoClassDefFoundError: com/alibaba/alink/pipeline/PipelineStageBase- java.lang.ClassNotFoundException: com.alibaba.alink.pipeline.PipelineStageBase- Error: A JNI error has occurred, please check your installation and try again原创 2021-07-03 17:16:05 · 400 阅读 · 1 评论 -
Kafka Learn
文章目录@[TOC]一、Kafka 介绍1.1 什么是 Kafka1.2 消息队列的优势1.3 消息队列的模式1.4 Kafka 的消息队列1.5 Kafka 的特性 & 消费原则1.6 Kafka 的使用场景二、Kafka 基本术语与基础架构2.1 Kafka 的基本术语(结合架构图记忆)2.2 Kafka 的系统架构三、Kafka 的架构深入3.1 Kafka 工作流程及文件存储机制3.1.1 Kafka 工作流程3.1.2 Kafka 文件存储机制3.2 Kafka 生产者3.2.1 分区策略原创 2021-04-23 23:55:06 · 129 阅读 · 0 评论 -
Scala+Maven 打包的 jar 包 运行出现:Failed to load class XXX.
问题:Failed to load class XXX.检查pom.xml是否有如下内容: <build> <sourceDirectory>src/main/scala</sourceDirectory> <plugins> <plugin> <groupId>org.scala-tools</groupId> .原创 2020-12-24 17:23:01 · 1273 阅读 · 3 评论 -
Windows IDEA 项目(Scala+Sbt、Scala+Maven)创建与远程部署到Linux(远程部署其它项目也适用)
注:创建通过IDEA安装的sbt一、sbt前提:先安装Scala插件1. scala-sbt项目创建:File => New => projectNext为避免后续部署到Linux运行出现问题,选择Scala版本时注意Linux安装的Spart版本是基于哪个Scala版本构建的Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-built w.原创 2020-12-20 02:07:03 · 661 阅读 · 1 评论 -
Windows无NVIDIA GUP情况的PyTorch 安装(cpuonly)
Anaconda安装:略查看Windows是否有NVIDIA显卡如果有NVIDIA显卡的需要安装CUDA以获取GPU加速。以下是PyTorch官网的一句话PyTorch can be installed and used on various Windows distributions. Depending on your system and compute requirements, your experience with PyTorch on Windows may vary in t.原创 2020-12-09 17:13:09 · 1141 阅读 · 0 评论 -
Spark Sql(DataFrame 创建与保存、Mysql 数据库的读取与写入、Hive 数据仓库的读取与写入)
1. maybe a semicolon is missing before `value toDF'?2. DataFrame 创建与保存3. Mysql 数据库的读取与写入4. Hive 数据仓库的读取与写入原创 2020-12-25 01:23:29 · 597 阅读 · 0 评论 -
Spark RDD(RDD的创建、操作、持久化、HBase数据读写)
一、RDD 操作(整理自 Spark 官网)1.1 Transformations(转换)Example later>>>map(func)Return a new distributed dataset formed by passing each element of the source through a function func.(返回一个新的数据集,该数据集是通过把源数据集的每一个元素传递给函数 func 而产生的)filter(func)Return原创 2020-12-23 19:19:40 · 463 阅读 · 0 评论 -
伪集群&集群下运行Spark应用程序
Spark应用程序在集群中运行时,需要借助于集群管理器,如本地集群管理器、YARN、Mesos,来为其实现资源管理调度服务,实现对集群中各个机器的访问。独立集群管理器启动Spark集群:略在集群中运行应用程序JAR包主节点参数spark://master:7070(master为主节点主机名)Linux Shell下命令cd /usr/local/sparkbin/spark-submit --class org.apache.spark.examples.SparkPi -.原创 2020-12-16 01:12:06 · 167 阅读 · 0 评论 -
CentOS 7 Spark 安装(3.0.1)
Step 1. Hadoop 安装(略)Step 2. Spark安装Spark部署模式:Local模式(单机模式)Standalone模式(使用Spark自带的简单集群管理器)YARN模式(使用YARN作为集群管理器)Mesos模式(使用Mesos作为集群管理器)下载SparkWindows下载可通过Xftp远程传输到虚拟机的hadoop用户主目录的Downloads目录下单机配置解压:sudo tar -zxf ~/Downloads/spark-3.0.1-bi原创 2020-12-16 00:23:39 · 509 阅读 · 1 评论 -
Scala 编程基础 C(函数式编程)
Scala 函数式编程原创 2020-12-15 22:42:34 · 687 阅读 · 0 评论 -
Scala 编程基础 B(面向对象编程)
Scala面向对象编程原创 2020-12-09 16:08:50 · 440 阅读 · 0 评论 -
Scale 编程基础 A(变量声明、基本数据类型、运算符、文件读写、分支与循环、数据结构)
Scala编程基础之变量声明、基本数据类型、运算符、文件读写、分支与循环、数据结构(List/Tuple/Range/Vector/Set/Map)与迭代器原创 2020-12-08 17:58:17 · 1712 阅读 · 0 评论 -
Linux Scala 安装
Scala安装原创 2020-12-08 17:57:48 · 435 阅读 · 0 评论 -
基于Hadoop的数据仓库Hive的介绍、安装与基本应用
基于Hadoop的数据仓库Hive一、概述数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策;数据仓库的体系结构传统数据仓库面临的挑战无法满足快速增长的海量数据存储需求无法有效处理不同类型的数据计算和处理能力不足Hive简介Hive是一个构建于Hadoop顶层的数原创 2020-11-16 16:55:46 · 1504 阅读 · 0 评论 -
Hadoop核心-HDFS介绍与实践(文件是否存在、读写文件、合并文件内容与日志定时上传)(Maven)
分布式文件系统-HDFS一、Introduction of DFS计算机集群结构分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群;与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的;计算机集群的基本架构Structure of DFS分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为原创 2020-11-16 09:10:24 · 522 阅读 · 0 评论 -
Hadoop核心-MapRedce介绍与WordCount实践(单词计数与按单词长度分区)(Maven)
文章目录一、概述二、MapReduce的体系结构三、MapReduce工作流程四、实例分析:WordCount五、MapReduce的具体应用六、MapReduce编程实践一、概述分布式并行编程Google首先提出分布式并行编程模型MapReduce,Hadoop MapReduce是它的开源实现;分布式程序运行在大规模计算机集群上,能够并行执行大规模数据处理任务而获得海量的计算能力;MapReduce与传统的并行计算框架(eg. MPI)的比较(Why MapReduce?)原创 2020-11-08 00:47:14 · 318 阅读 · 0 评论 -
Hadoop安装配置(CentOS 7伪分布式)
Very Important:谨记:配置时按照官网(Apache Hadoop)说明!!!不然以后运行啥jar、mapreduce会出现问题!!!CentOS 7 伪分布式(集群最好见官网):下载Hadoop到Hadoop用户的Downloads目录,解压到/user/local,并重命名以去掉版本号,授权hadoop用户:配置Hadoop环境变量(vim ~/.bashrc) export HADOOP_HOME=/usr/local/hadoop # Hadoop安装路径原创 2020-11-07 23:24:34 · 251 阅读 · 1 评论 -
分布式数据库HBase-介绍、安装与通过Hbase Java API建表、表的数据插入与获取
一、HBase简介HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据;HBase的目标是处理非常 庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和 数百万列元素组成的数据表;HBase和BigTable的底层技术对应关系;二、HBase数据模型三、HBase实现原理四、HBase运行机制五、HBase应用方案六、HBase的安装(CentOS 7)七、编程实战....原创 2020-11-06 16:02:09 · 1056 阅读 · 0 评论