大数据笔记
文章平均质量分 91
本系列主要为总结类文章,详细组件介绍请看对应专栏。主要介绍大数据主流开发组件知识,内容包括不限于hadoop、hive、spark、hbase、flink,本系列将长期更新。
GoAI
CSDN人工智能领域博客专家、新星计划计算机视觉方向导师、内容合伙人。阿里云社区专家博主、百度飞桨PPDE、飞桨校领航团团长、开源特训营导师,曾获多次AI比赛奖项及大厂实习,长期专注大数据与人工智能知识分享,相关合作和交流可私信。
展开
-
大数据开发面试知识点总结
本文详细介绍大数据hadoop生态圈各部分知识,包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术,总结内容适合大数据开发者学习,希望能够和大家多多交流。原创 2021-02-09 11:22:34 · 22429 阅读 · 51 评论 -
大数据电影可视化系统
本电影大数据可视化项目以数据采集、处理、分析及数据可视化为项目流程,实现百万级电影数据离线处理与计算。功能包括python爬虫,Matplotlib绘图、Echarts数据可视化、结合mysql数据实现hive电影相关数据统计、Mapreduce词频统计、情感分析、词图云等。...原创 2021-01-20 11:47:55 · 30356 阅读 · 18 评论 -
Hive常见函数大全
Hive常用函数大全一览转载过往记忆博客:https://www.iteblog.com/archives/category/hive/文章目录1关系运算1.11、等值比较: =1.22、不等值比较:1.33、小于比较: <1.44、小于等于比较: <=1.55、大于比较: >...原创 2020-06-23 05:36:00 · 178 阅读 · 0 评论 -
Spark常见优化原则
一、参数调优:提交任务参数请参考这篇文章(包括优化建议):http://www.gaohongwei.cn/551/spark任务:编写脚本或代码里设置参数 • 第一块:让task执行代码时,默认占executor总内存的20%。• 第二块:task通过shuffle过程拉取上一个stage的task的输出后,进行聚合等操作时默认...原创 2020-09-22 11:10:03 · 1522 阅读 · 0 评论 -
SparkSQL实践
SparkSQL实战:统计用户及商品数据指标,包含以下三张表orders表:product表:priors表,实现以下业务需求:1.统计product被购买的数量:val productCnt = priors.groupBy("product_id").count()2..统计product 被reordered的数...原创 2020-09-20 05:14:10 · 478 阅读 · 0 评论 -
大数据面试求职经验总结
计算机专业面试求职篇-大数据岗为例,包括面试经验分享、简历制作、经验及心得分享等。写在前面:空杯心态,把握好校招机会,它是你最容易通往大厂的机会。原创 2021-09-10 17:32:14 · 3966 阅读 · 3 评论 -
Java最全思维导图知识汇总
本篇主要总结java知识思维导图框架,总结内容从基础到高级,到Java开发。可供Java学习者学习。原创 2020-07-02 08:04:39 · 215 阅读 · 0 评论 -
Linux常用命令总结
Linux 常用基本及高级命令总结,导图形式,参考其他资料可供Linux初学者学习。top 查看内存 df -h 查看磁盘存储情况iotop 查看磁盘 IO 读写 (yum install iotop 安装)iotop -o 直接查看比较高的磁盘读写程序原创 2021-01-25 11:44:47 · 385 阅读 · 0 评论 -
Mysql数据库知识总结
Mysql学习资料参考:MySQL操作笔记(五万字详解)_Coder Xu的博客-CSDN博客MySQL数据库面试题(2020最新版)_ThinkWon的博客-CSDN博客_mysql数据库面试题一、为什么用自增列作为主键1、如果我们定义了主键(PRIMARY KEY),那么InnoDB会选择主键作为聚集索引。如果没有显式定义主键,则InnoDB会选择第一个不包含有NULL值的唯一索引作为主键索引。原创 2021-01-25 12:16:36 · 1105 阅读 · 0 评论 -
Redis知识点笔记总结
🐳本文参考:Redis详细总结笔记_poizxc2014的博客-CSDN博客📝Redis学习资料推荐:Redis笔记(基础+进阶)_爪洼ing的博客-CSDN博客Redis全面实战教程_challenge-linge的博客-CSDN博客Redis知识点总结_烧煤的快感的博客-CSDN博客_redis的知识点📒Redis面试题总结参考:Redis面试题(2020最新版)_ThinkWon的博客_redis面试题前言:Redis简单介绍1、什么是redisRedis是一个基于原创 2022-03-24 10:32:52 · 2546 阅读 · 3 评论 -
Hive数据分析实战
有以下几张数据表,请写出Hive SQL语句,实现以下需求。注:分区字段为dt,代表日期。1、某次经营活动中,商家发起了"异性拼团购",试着针对某个地区的用户进行推广,找出匹配用户。参考实现:选出城市在北京,性别为男的10个用户名select user_namefrom user_infowhere city=‘beijing’ and sex=‘male’limit 10;2、某天,发现食物类的商品卖的很好,你能找出几个资深吃货吗?参考实现:选出在2019年6月18日,购买的商品类是fo原创 2020-06-10 14:37:53 · 559 阅读 · 0 评论 -
Spark案例实战教程
Spark案例实战实战代码参考:GitHub - GoAlers/Bigdata_project: 电商大数据项目-推荐系统(java和scala语言)原创 2021-02-17 12:43:03 · 7642 阅读 · 0 评论 -
数据仓库总结
本系列主要介绍数据仓库相关知识,数据仓库,英文名为Data Warehouse,简写为DW或DWH。数据仓库,是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。1.2 数据仓库的四个特点面向主题:数据仓库是按照一定的主题来组织,仅存储与主题相关的数据。主题是指用户在构建数仓时考虑决策时所关注的重点方面,方便以后的数据原创 2021-02-09 11:50:07 · 1696 阅读 · 0 评论 -
数据仓库概念总结
数据仓库相关概念整理:数据仓库:英文Data WareHouse,数据仓库是面向主题,为分析数据而设计的,是一个各种数据(包括历史数据和当前数据)的中心存储系统,主要服务于商业智能(也就是BI)和企业决策管理。商业智能:指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值,帮助企业做出明智的业务决策的工...原创 2020-10-24 22:37:58 · 1065 阅读 · 0 评论 -
大数据组件综合笔记
大数据组件综合笔记,Hadoop是一个分布式存储和计算框架,具有高可靠, 高扩展, 高容错的特点(数据副本和集群);由底层HDFS分布式文件系统负责存储,和MapReduce负责分布式计算,以及后续增加的yarn负责资源协调管理。原创 2020-08-30 16:28:48 · 1366 阅读 · 0 评论 -
Hadoop常见命令总结
本文主要介绍Hadoop常见命令总结。进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh1、查看指定目录下内容Hadoopfs –ls [文件目录]eg: hadoop fs –ls /user/wangkai.pt...原创 2020-02-12 09:40:15 · 2547 阅读 · 0 评论 -
Mapreduce概念及流程介绍
Mapreduce框架:MapReduce的过程MapReduce是采用一种分而治之的思想设计出来的分布式计算框架,它由两个阶段组成:map阶段和reduce阶段。在map阶段中:首先读取HDFS中的文件,每个文件都以一个个block形式存在,block中的数据会被解析成多个kv对,然后调用map task的map方法;m...原创 2020-04-12 16:04:27 · 2078 阅读 · 0 评论 -
大数据常见运维问题汇总
大数据常见运维问题汇总其他安装问题:1.IDEA安装与配置https://blog.csdn.net/qq_27093465/article/details/774491172.IntelliJ IDEA 修改maven为阿里云仓库https://blog.csdn.net/u013541411/article/details/1001667123.Mysql安装:https://blog.csdn.net/qq_36582604/article/details/80526287原创 2021-03-16 20:05:56 · 1813 阅读 · 1 评论 -
Hadoop大数据生态组件环境安装
本文介绍大数据hadoop环境各组件安装,三台虚拟机分布式安装,详细安装过程内容可参考本文。各组件端口号查看:http://www.gaohongwei.cn/530/CentOS7配置NAT模式网络详细步骤(亲测版)https://blog.csdn.net/Jackson_mvp/article/details/1008569661.重启网络servicenetworkres..原创 2021-01-25 11:29:20 · 820 阅读 · 0 评论 -
大数据开发笔记(十):Hbase列存储数据库总结
Hbase--HBase 本质上是一个数据模型,可以提供快速随机访问海量结构化数据。利用 Hadoop 的文件系统(HDFS)提供的容错能 力。它是 Hadoop 的生态系统,使用 HBase 在 HDFS 读取消费/随机访问数据,是 Hadoop 文件系统的一部分。 HBase 是一个面向列的数据库,在表中它由行排序。表模式定义只能列族,也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续地存储在磁盘上。表中的每个单元格值都...原创 2021-01-20 12:28:27 · 5948 阅读 · 1 评论 -
大数据开发笔记(十):Hbase实践
HBSAE实践:(要求先配置好hadoop环境,版本hadoop2皆可,先启动zookeeper) 文件下载链接:https://pan.baidu.com/s/1W-WMer8WDyOqt-N_RU7bXg 提取码:12341、安装(hbase-0.98.6-hadoop2)(1)安装zookeeper(zookeeper-3.4.5)首先,将zoo_sample.cfg改名为zoo.cfg(要求所有机器保持一致)server.0=master:8880:7770...原创 2021-01-20 12:35:21 · 1545 阅读 · 0 评论 -
大数据开发笔记(九):Flink基础
Flink: 分布式、高性能框架,支持实时模式和批处理模式一、Apache Flink作为一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎和Storm/Spark Streaming一样,定位于流式处理系统区别:– Storm:速度快,低延迟,吞吐能力低,无法保证精确一致性,必须..原创 2021-03-01 13:19:29 · 1620 阅读 · 1 评论 -
大数据开发笔记(九):Flink综合学习
Flink基础Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务:原创 2021-03-01 13:22:50 · 2549 阅读 · 0 评论 -
大数据开发笔记(八):Sparkstreaming
Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,处理结果保存到HDFS,数据库等。二、SparkStreaming实时任务如何开发?1. 数据的输入1.1 socket(测试开发的时候使用起来很方便。)1.2 HDFS(使用得很少)1.3 Flume(也是很少)1.4 自定义数据源(原创 2021-02-04 12:52:36 · 940 阅读 · 1 评论 -
大数据开发笔记(八):Spark综合笔记总结
Spark Core:Spark 的核心模块,包含 RDD、任务调度、内存管理、错误恢复、与存储系统交互等功能。Spark SQL:主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是 DataFrame,将其作为分布式 SQL 查询引擎,通过将 Spark SQL 转化为 RDD 来执行各种操作。Spark Streaming:Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API。原创 2021-01-28 21:53:30 · 1761 阅读 · 1 评论 -
大数据开发笔记(七):Kafka分布式流式处理
Kafka 是一个分布式流式处理平台,Kafka 主要有两大应用场景:消息队列 :建立实时流数据管道,以可靠地在系统或应用程序之间获取数据。数据处理: 构建实时的流数据处理程序来转换或处理数据流。原创 2021-02-04 12:40:01 · 2277 阅读 · 0 评论 -
大数据开发笔记(六):Flume基础学习
Flume基础1、Flume是什么?Flume是数据采集,日志收集的框架,通过分布式形式进行采集,(高可用分布式)本质:可以高效从各个网站服务器中收集日志数据,并且存储到HDFS、hbase2、Flume可以对接的数据源? Console、RPC、Text、Tail、Syslog、Exec等3、Flume接受的数据源输出目标? 磁盘,hdfs,hbase, 经过网络传输kafkadata->flume->kafka->spark stre...原创 2021-02-04 12:32:04 · 4876 阅读 · 0 评论 -
大数据开发笔记(五):Zookeeper
ZooKeeper 是一个开源的分布式协调服务。它是一个为分布式应用提供一致性服务的软件,分布式应用程序可以基于 Zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定原创 2021-01-25 11:23:28 · 2190 阅读 · 2 评论 -
大数据开发笔记(四):Hive数仓调优
详细介绍hive数据调优,包括map各阶段优化,合并小文件,hive参数及语句优化。针对数据倾斜优化。原创 2021-01-20 12:24:03 · 1421 阅读 · 0 评论 -
大数据开发笔记(四):Hive分区详解
hive分区(partition)1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节1、一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。2原创 2021-02-10 14:33:51 · 503 阅读 · 0 评论 -
大数据开发笔记(四):Hive数据仓库
Hive介绍:Hive主要解决海量结构化日志的数据统计分析,它是hadoop上的一种数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类似于SQL的查询方式,本质上来说是将Hive转化成MR程序。Hive与其它数据库的区别:Hive数据是存储在HDFS,本质上是转换成mr程序执行,因此查询效率比较慢,涉及mr程序的资源调度和任务计算;HDFS的数据操作是支持覆盖追加,它不支持update和事务;扩展性好,可以在多个集群上做应用开发;Hive的读时速度快,因为在加载数...原创 2021-01-20 12:22:47 · 2833 阅读 · 0 评论 -
大数据开发笔记(三):Mapreduce
MapReduce是采用一种分而治之的思想设计出来的分布式计算框架,它由两个阶段组成:map阶段和reduce阶段。在map阶段中:首先读取HDFS中的文件,每个文件都以一个个block形式存在,block中的数据会被解析成多个kv对,然后调用map task的map方法; map方法对接收到的kv对进行分片处理,转换输出成新的kv对; 然后对kv对进行分区和排序压缩,中间会涉及到map的shuffle过程,最后存入本地磁盘,供后续reduce task作为输入参数使用。...原创 2021-01-20 12:21:00 · 2303 阅读 · 0 评论 -
大数据开发笔记(二):Yarn分布式集群操作系统
Yarn分布式集群操作系统Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,不再强迫使用MapReduce框架。Yarn定位: 分布式集群操作系统1、资源管理和调度2、支持多个不同计算框架3、Mapreduce框架彻底重...原创 2021-01-20 12:19:31 · 2857 阅读 · 1 评论 -
大数据开发笔记(一):HDFS介绍
HDFS1.请介绍一下HDFS? Hadoop由三部分组成:HDFS、分布式计算MapReduce和资源调度引擎Yarn。 HDFS 是一个分布式文件系统,负责文件存储。它的文件系统和平时看到的Linux很像,有目录结构,顶层目录是/,存放着文件,以及可以对文件进行增删,修改,移动等功能,不同的是它具有分布式的特点,hdfs的文件系统可以横跨多个机器,文件可能是存储在不同机器上的,但用户在使用时会被当作是存储在一台机器上。 HDFS具有高可用、容错率高、可扩展的特点。 在HDFS原创 2021-01-20 12:17:40 · 3468 阅读 · 2 评论