大数据
文章平均质量分 91
Helltaker
这个作者很懒,什么都没留下…
展开
-
【Python】Python环境搭建及Python数据类型
Python环境搭建及Python数据类型Python环境搭建安装AnacondaTurtle DemoJupyter NoteBook扩展功能(代码提示)Python环境搭建安装AnacondaTurtle DemoJupyter NoteBook使用 Anaconda 安装 Python 自带 Jupyter NoteBook,在这里可以启动。默认启动创建路径是在命令输入的目录。但可以修改默认路径。Jupyter NoteBook 修改默认路径方式:找到Jupyter NoteBook的快原创 2021-01-26 17:17:36 · 353 阅读 · 0 评论 -
【考试真题】2020年7月份机试试卷
2020年7月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.3.创建 HBase 数据表(10 分)4.5.6.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目难度系原创 2021-01-22 17:26:33 · 634 阅读 · 1 评论 -
【考试真题】2020年9月份机试试卷
2020年9月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.使用 Spark一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU(Standard Product Unit,标准产品单元)数据,包含了外卖平台某地区一时原创 2021-01-22 17:05:47 · 540 阅读 · 1 评论 -
【考试真题】2020年10月份机试试卷
2020年10月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.数据清洗(40 分)3.用户行为分析(20 分)4.找出有价值的用户(30 分)一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至原创 2021-01-21 22:52:42 · 401 阅读 · 0 评论 -
【考试真题】2020年11月份机试试卷
2020年11月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.2.3.4.5.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述countrydata.csv 是世界新冠疫情数,数据中记录了从疫情开始至 7 月 2 日,以国家为单位的每日新冠疫情感染人数的数据统计。字原创 2021-01-21 16:41:27 · 366 阅读 · 0 评论 -
在linux系统上配置并运行kafka
在linux系统上配置并运行kafka前提条件解压并安装启动kafka简易使用Kafka查看topics创建topicstopics详情删除topics交互界面前提条件一台搭建好包括但不限于jdk hadoop zookeeper等环境的虚拟机解压并安装tar -zxvf kafka_2.11-2.0.0.tgz -C /opt/mv kafka_2.11-2.0.0/ kafka修改/etc/profile,记得sourceexport KAFKA_HOME=/opt/kafkaexpo原创 2020-12-02 19:11:46 · 271 阅读 · 0 评论 -
【SPARK】知识点全讲解
SPARK知识点全讲解Spark环境部署Spark简介诞生与发展为什么使用SparkSpark优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDateFrameSpark环境部署前置条件:完成Scala环境部署可以参考我的博客:Scala环境部署和简单介绍然后我们在vmware虚拟机上配置Scala和Spark并初步使用Spark简介诞生与发展诞生于加州大学伯克利分校AMP实原创 2020-11-25 11:43:57 · 7916 阅读 · 3 评论 -
【Spark项目实战】使用spark分析日志文件(json格式)
使用spark分析日志文件准备阶段导包整合格式转入DataFrame分解第一层json列分解cm列分解et列分解kv列loadingadnotificationactive_backgroundcommentpraise准备阶段启动好spark-shell的虚拟机一份op.log文件,如下图所示:导包import spark.implicits._import org.apache.spark.sql.functions._import org.apache.spark.sql.types.原创 2020-11-20 12:16:05 · 1000 阅读 · 0 评论 -
【spark】算子:distinct union intersection subtract cartesian mapToPair flatMapToPair
算子:distinct union intersection subtract cartesian mapToPair flatMapToPairdistinct union intersection subtract cartesianjava版本scala版本mapToPair flatMapToPairmapToPaitdistinct union intersection subtract cartesianjava版本public class rddJava1 { public stati原创 2020-11-05 18:57:56 · 137 阅读 · 0 评论 -
【spark】算子:WordCount Rdd Map ActionRdd
算子:WordCount Rdd Map ActionRddWordCountMapRddActionRddJava版本filterparallelizeWordCountimport org.apache.spark.rdd.RDDimport org.apache.spark.{Partition, SparkConf, SparkContext}object wordcount { def main(args: Array[String]): Unit = { System.se原创 2020-11-04 20:01:30 · 200 阅读 · 0 评论 -
【Spark】初入门——使用IDEA实现WordCount
使用IDEA实现WordCount准备阶段主体代码块log4j日志文件修改准备阶段创建maven项目pom.xml需要修改和添加的部分:<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compile原创 2020-11-03 20:12:30 · 457 阅读 · 0 评论 -
在vmware虚拟机上配置Scala和Spark并初步使用
在虚拟机上配置Scala和Spark准备阶段安装包配置文件scala部分spark部分spark初体验准备阶段一台配置好Java环境的虚拟机scala-2.11.12.tgzspark-2.4.5-bin-hadoop2.6.tgz安装包将scala和spark的安装包导入虚拟机解压,移动到opt目录下(或自定义),并改名tar -zxvf scala-2.11.12.tgz -C /opt/tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz -C /opt/原创 2020-10-30 14:57:34 · 3297 阅读 · 0 评论 -
数据仓库理论介绍(随堂笔记)(持续更新)
数据仓库理论介绍为什么学习数据仓库什么是数据仓库面向主题实例集成非易失随时间变化为什么学习数据仓库数据不兼容,很难被整合战略决策需要数据的分析推荐系统什么是数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合面向主题主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念每一个主题基本对应一个宏观的分析领域在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象例如“销售分析”就是一个分析领域,因此这个数据仓库应用的原创 2020-10-08 15:20:34 · 582 阅读 · 1 评论 -
大数据全知识点讲解之HBASE
大数据全知识点讲解之HBASE(上)NOSQLNOSQL三大基石索引和查询MapReduce/ShardingNOSQL分类HBASEHBASE应用场景HBASE物理架构HBase数据管理HBase架构特点HBase ShellNOSQLNOSQL的全称是:not only sql,即非关系型数据库。NOSQL是一个通用术语:指不遵循传统RDBMS模型的数据库数据是非关系的,且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性和一致性问题为什么使用NOSQL?因为传原创 2020-09-24 20:14:38 · 256 阅读 · 0 评论 -
大数据知识点全讲解之Hive(中)
大数据知识点全讲解之Hive(中)Hive查询语法基础语法常用函数Limit语句Where语句分组Join语句Hive查询语法select [ALL | DISTINCT] select_expr, select_expre, ...from table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list]| [DISTRIBUTE BY col_list] [SO原创 2020-09-22 23:01:44 · 350 阅读 · 0 评论 -
大数据知识点全讲解之Hive(上)
大数据知识点全讲解之HiveHive简介Hive结构Hive与Hadoop的关系Hive安装Hive交互方式Hive数据类型Hive的基本数据类型Hive的复杂数据类型Hive元数据结构Hive和BeelineHive的基本操作数据库操作数据表操作Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能其本质是将SQL转换为MapReduce的任务进行运算,底层是由HDFS来提供数据的存储为什么使用Hive?采用类SQL语法去操作原创 2020-09-16 19:47:38 · 250 阅读 · 0 评论 -
大数据知识点全讲解之HDFS
大数据知识点全讲解之HDFSHDFS介绍HDFS应用场景HDFS架构ClientNameNodeDataNodeSecondary NameNodeNamenode的作用DataNode的作用HDFS的副本机制HDFS的命令行使用HDFS的高级命令HDFS写入过程HDFS读取过程HDFS的API操作HDFS-HA高可用HDFS介绍HDFS,Hadoop Distributed File System 是Apache Hadoop项目的一个子项目,Hadoop非常适于存储大型数据(比如TB或PB),其就是原创 2020-09-16 17:12:44 · 268 阅读 · 0 评论 -
大数据全知识点讲解之Mapreduce
大数据全知识点讲解之MapreduceMapreduce介绍Mapreduce设计思想Mapreduce特点实现WordCountMapreduce执行过程Hadoop V1 MR引擎Hadoop V2 YARNMapreduce介绍MapReduce是一个分布式计算框架它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google适用于大规模数据处理场景每个节点处理存储在该节点的数据每个job包含Map和Reduce两部分Mapreduce设计思想分而治之简化并行计原创 2020-09-15 23:43:39 · 588 阅读 · 0 评论 -
大数据知识点全讲解之Hadoop
大数据知识点全讲解之HadoopHadoop介绍Hadoop豆知识为什么使用HadoopHadoop架构Hadoop搭建Hadoop介绍Hadoop是一个开源分布式系统架构狭义上来说,hadoop单独指代hadoop这个软件HDFS:分布式文件系统Mapreduce:分布式计算系统Yarn:分布式样集群资源管理广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件zookeeperhbasehive…现在,Hadoop是处理海量数据的架构首选,它可以非常快得完成原创 2020-09-15 23:00:53 · 185 阅读 · 0 评论 -
大数据知识点全讲解之Zookeeper
大数据知识点全讲解之ZookeeperZookeeper概述Zookeeper特点ZnodeZookeeper数据结构Zookeeper角色Zookeeper应用场景Zookeeper选举Zookeeper搭建Zookeeper的Shell客户端操作操作实例Znode属性Zookeeper的watch机制Zookeeper的JavaAPI操作Zookeeper概述zookeeper是一个开源的分布式协调服务框架,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题Zookeeper由文件系统和通原创 2020-09-15 20:04:04 · 201 阅读 · 0 评论