大数据管理技术
Unauthorized_
是一个非常菜的小菜鸡orz
展开
-
大数据管理技术 | 一些遇到的错误
文章目录一些遇到的错误hbasesparkpyspark一些遇到的错误hbasegedit ~/.bashrc时显示Unable to init server: Could not connect: Connection refused(gedit:4223): Gtk-WARNING **: 23:15:04.898: cannot open display:原因:进入了ssh/hdfs之类的操作 exit即可或者是真的没有权限,参考进入hbase shell后输入list显示原创 2020-09-07 12:45:44 · 892 阅读 · 0 评论 -
大数据管理技术 | 实习五 Spark软件栈体验
文章目录实习五 Spark软件栈体验Spark安装与启动1.Spark RDD-WordCount2.Spark SQL3.Spark MLlib之Titanic4.GraphX再现PageRank实习五 Spark软件栈体验Spark安装与启动本次实习采用spark为3.0.0版本。在根据教程安装后输入./bin/spark-shell进入交互模式,界面生成如下结果:输入如下代码进行RDD简单操作:val textFile = sc.textFile("file:///usr/local原创 2020-08-15 11:31:56 · 520 阅读 · 0 评论 -
大数据管理技术 | 基于Spark的tpc-h22条查询语句及优化
文章目录基于Spark的tpc-h查询语句及优化1.实验目的2.实验环境2.1 电脑&虚拟机配置2.2 Java&Spark设置3.数据上传&建表4.tpc-h测试集22条查询4.1 查询语句4.2 运行时间分析5.优化5.1 数据倾斜5.2 shuffle5.3 持久化5.4 Spark多核运行5.5 虚拟机设置6.结果与分析7.心得体会基于Spark的tpc-h查询语句及优化1.实验目的选择了tpc-h的22条语句进行查询测试,并尝试了shuffle优化、持久化、spark原创 2020-08-15 11:01:25 · 1076 阅读 · 0 评论 -
大数据管理技术 | 实习三 Hive之用户购物行为分析
实习三 Hive之用户购物行为分析文章目录实习三 Hive之用户购物行为分析小组成员一、实验目的二、实验过程1.数据说明数据导入2.用户行为分析2.1 用户访问量与下单量2.2 用户下单量分析2.3 一天中不同时间段的差异2.4 用户行为路径分析2.4.1 用户每种行为的日平均次数2.4.2 用户购买行为转化分析2.5 获客分析2.6 用户留存分析2.7 复购分析3.商品数据分析3.1 商品排行榜信息3.2 商品种类浏览量排行榜小组成员丁泓馨 元培学院 1800017752李铮 元培学院 18000原创 2020-08-14 19:45:43 · 4389 阅读 · 2 评论 -
大数据管理技术实习二——PageRank
文章目录大数据管理技术实习二——PageRank实验目的编程思路实验步骤注意事项大数据管理技术实习二——PageRank实验目的本实验为Map Reduce小组作业实习一项目,目的为给定风筝网络图为输入时实现PageRank算法,算出该图的值分布。编程思路参考:https://blog.csdn.net/u010414589/article/details/51404971输入与输出:将给定网络图转化为文档,其中格式为:node_name_i pagerank_i i_link_1 i_原创 2020-07-24 16:58:33 · 314 阅读 · 0 评论 -
大数据管理技术实习——MapReduce之WordCount(去标点符号)
大数据管理技术实习——MapReduce文章目录大数据管理技术实习——MapReduce要求:基础代码1.map部分2.Reduce部分改进代码运行过程(命令行shell相关)1.开启hdfs2.初始化/格式化(以前的输入输出 没有可略过)3.打包jar4.运行程序5.部分bug5.1 HDFS Corrupt block5.2 正则表达式中的“-”问题5.3 retry policy is...5.4 SLF4J: Class path contains multiple SLF4J bindings.原创 2020-07-18 22:18:44 · 2734 阅读 · 1 评论