![](https://img-blog.csdnimg.cn/d051f346986947cda53ceac5c338b4a8.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 72
大数据学习记录
一加六
记录学习点滴,怀揣远大梦想。
展开
-
spark job提交执行流程
standalone集群启动后worker向master注册信息,通过spark-submit提交任务时,在任务提交节点或Client启动driver,在driver创建并初始化sparkContext对象,包含DAGScheduler和TaskScheduler,TaskScheduler与Master节点通讯申请注册Application,Master节点接收到Application的注册请求后,通过资源调度算法,在自己的集群的worker上启动Executor进程;启动的Executor也会反向转载 2021-12-05 16:26:40 · 533 阅读 · 0 评论 -
SQL面试常问总结
结合几次面试经历,对sql考察很多,自己这方面也薄弱很多,做一个总结,然后重点练习。JOIN有时为了得到完整的结果,我们需要从两个或更多的表中获取结果。我们就需要执行 join。Person表Order表INNER JOIN == JOIN列出所有人的定购INNER JOIN 关键字在表中存在至少一个匹配时返回行。如果 “Persons” 中的行在 “Orders” 中没有匹配,就不会列出这些行。SELECT Persons.LastName, Persons.FirstName, Or原创 2021-12-01 15:23:04 · 1377 阅读 · 0 评论 -
大数据开发面试知识点总结
hadoop job执行流程input split map (combine sort)dataInput–>split–>Mapper–>Combine–>(产出临时数据–>Partition–>Sort–>Reducer–>最终数据。spark和hadoop区别spark跟mapreducespark基于内存,mapreducehive外部表和内部表区别外部表是hdfs文件的映射不储存数据,删除外部表数据部分不会删除,内部表储存数据,删除内原创 2021-11-30 22:49:01 · 184 阅读 · 0 评论 -
spark将数据加载到hbase--bulkload方式
通过bulkload方式加载数据优点:与put方式相比1.导入过程不占用Region资源2.能快速导入海量的数据3.节省内存应该是业界将数据载入hbase常用方式之一,因此有必要学习掌握实现步骤步骤一 读取数据生成rdd读入数据是面向行的表,一行有多个字段,需要转换成面向列的数据,构造keyValue对象,一定要注意key们要排序,比如user:age列要在user:gender列之前需要设计行键保证行键唯一和避免数据都涌入一个region,如我的是按时间设计的,好几个月的数据,因此将数据原创 2021-11-22 21:30:25 · 2064 阅读 · 0 评论 -
本地IDEA、spark程序远程读取hive数据
描述问题数据在linux系统服务器上,在自己windows上用IDEA编写spark程序,需要远程访问hive数据。先说成功步骤,再说配置过程出现的的问题和解决办法步骤1 下载winutilsgithub-winutils各个版本集合下载里面和自己服务器版本对应的,配置HADOOP_HOME将下载的文件添加到系统环境变量,配置完最好重启系统。2 添加hive-site.xml文件下载服务器端的hive-site.xml文件配置添加到src/main/resources目录下hi原创 2021-11-21 12:08:01 · 3830 阅读 · 0 评论 -
spark on yarn配置
在安装好spark后修改spark-env.sh 若没有 将模板文件改名为此名称在spark安装目录下的conf找到spark-env.sh添加HADOOP_HOME和HADOOP_CONF_DIR让其加载yarn-site.xml文件配置修改spark-defaults.conf同在conf文件夹下找到spark-defaults.conf.template文件改名spark-defaults.conf添加如下然后将spark安装目录下的jars中的文件 put到hdfs上图所指原创 2021-11-19 21:26:02 · 1752 阅读 · 0 评论 -
什么是结构化数据?非结构化数据?半结构化数据?
结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。如mysql数据库中的数据、csv文件非结构化数据非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。非结构化数据一般指大家文字型数据,但是数据中有很多诸如时间,数字等的信息。相对于传统的在数据库中或者标记好的文件,由于他们的非特征性和歧义性,会更难理解。包括所有格式的办公文档、文本、图片、XML、HTM转载 2021-11-19 14:51:15 · 29091 阅读 · 2 评论 -
大数据集群一些启动脚本-shell---会更新
批量启动zookeeper#!/bin/bash# hostserver array iparray=(ha001 ha002 ha003)#zookeeper install path#path="/export/servers/zookeeper-3.6.2/bin"# get parameters start | status | stopcase $@ in start)#---------start-zookeeper----------- for ip in ${ipa原创 2021-11-18 21:30:48 · 839 阅读 · 0 评论 -
基于新浪微博的⽇志数据分析
[{"beCommentWeiboId":"","beForwardWeiboId":"","catchTime":"1387159495","co mmentCount":"1419","content":"分享图片","createTime":"1386981067","info1":"","info2":"","info3":"","mlevel":"" ,"musicurl":[],"pic_list": ["http://ww3.sinaimg.cn/thumbnail/40d61044jw1e原创 2021-11-11 23:22:20 · 1123 阅读 · 1 评论 -
随机森林算法的Python实现
环境 python3.8数据集 鸢尾花数据集 def dataset(self): iris = load_iris() feature = pd.DataFrame(data=iris.data, columns=iris.feature_names) target = pd.DataFrame(data=map(lambda item: iris.target_names[item],原创 2021-11-05 20:43:38 · 2635 阅读 · 1 评论 -
hadoop学习记录
Hadoop学习虚拟机安装linux网络配置SSH服务配置 免密登录防火墙配置Jdk安装配置环境变量Hadoop安装和集群配置配置环境变量主节点配置将主节点内容分发到子节点zookeeper安装并配置配置环境变量 17配置zoo.cfg添加myid文件Hadoop集群测试启动各个节点的zookeeper服务启动集群监控namenode的管理日志journalNode在node-01上格式化namenode,并分发到node-02在node-01上格式化ZKFC在no原创 2021-09-20 14:19:17 · 350 阅读 · 0 评论 -
spark作业--实时分析springboot日志
在云服务器上做的,由于白嫖的云服务器性能比较差,就设计了如下架构。功能与设计(大数据集群+架构设计+功能分析与设计)总体架构图功能:订单成交量统计分析历史成交总金额热门分类的实时和离线统计分析热门商品的实时和离线统计分析活跃用户统计分析项目实现SpringBoot tmall商城部署在服务器git拉取tmall springboot项目到本地,配置mysql,创建对应数据库,运行sql文件,复制数据库,运行springboot项目,生成日志文件到/root/log/info/下f原创 2021-06-13 19:08:23 · 1397 阅读 · 3 评论 -
学习笔记--HIVE网站日志统计分析
1.概述本次实践的目的是结合之前所学flume和hadoop两个主要技术,完成一个小案例。1.1.日志收集以及上传HDFS配置两台产生日志的服务器作为数据源,第三台服务器做收集汇总,三台服务器共同组成hadoop集群储存日志 使用flume进行数据处理;1.2.数据清洗使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;1.3.统计分析使用Hive对清洗后的数据进行统计分析;1.4.分析结果导入MySQL使用Sqoop把Hive产生的统计结果导出到mysql中;原创 2021-04-26 22:12:06 · 1262 阅读 · 0 评论