自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Hive安装

Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。使用Hive的原因Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员处理大数据的难度以MR 作为计算引擎(也可选择Spark计算引擎)、HDFS 作为存储系统,为超大数据集设计的计算/ 扩展能力Hive架构。

2024-06-21 14:25:39 888

原创 电商日志数据分析

Day4 主要完成第三问 :日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-21 02:03:14 526

原创 代码提交到gittee(码云)

其中姓名为必选项,填写后与个人地址空间一致,设置复杂一些,否则会出现个人地址空间已存在的情况。Git.exe Path选择Git的安装目录下的bin目录,点击下一步。进行配置小乌龟和Git,确定好Git已经安装成功,默认点击下一步。可以修改一下安装的路径,点击Browse,选择自定义路径。如图所示,提交成功,点击Push,推送代码到远程仓库。可以修改安装地址,点击Browse,更改自定义目录。添加成功,点击Commit,提交代码到本地仓库中。一路默认安装即可,点击Next,如下图所示。

2024-06-21 01:55:27 360

原创 电商日志数据分析

Day3主要完成第二问 :统计各个省份的浏览量 (需要解析IP)

2024-06-21 01:35:25 657

原创 电商日志数据分析

日志产生的渠道有nginx日志、ajax加载的一些动态的图片、位置等信息。本次我们提供了一个电商日志打~/data/trackinfo_20130721.data原始日志说明我们需要的:第二个字段=url、第十四个字段=ip、第十八个字段=时间字段的解析:我们会从ip中解读出国家、省份、城市,从url中解析出页面的idDay2主要完成第一问 :统计页面浏览量(每行记录就是一次浏览)

2024-06-21 01:29:44 499

原创 hadoop伪分布式集群配置

进入Linux操作系统中存放应用安装包的目录/export/software/(该目录需提前创建),然后执行rz -bey命令将JDK安装包上传到虚拟的/export/software/目录下。vi /export/servers/hadoop-3.2.0/etc/hadoop/core-site.xml (后面到yarn-site.xml,文件地址都是这个,只需修改文件名)(14)修改stop-yarn.sh 文件(在hadoop-3.2.0/sbin目录下),在文件前面增加如下内容。

2024-06-20 15:04:56 408

原创 虚拟机中安装IDEA

准备工作: 1.确保您的虚拟机安装了操作系统,并且该操作系统是 IntelliJ IDEA 支持的版本(通常是 Windows、macOS 或 Linux)。2.最好确保您的虚拟机可以连接到互联网。

2024-06-13 11:09:53 316

原创 在虚拟机上,将编写的MapReduce程序打包并上传,启动集群的Linux系统中

2.选择: Build --> Build Artifacts --> Build,然后耐心等待一会,在左侧会自动生成一个out的文件,点击: out —> artifacts —> xxx_ jar。在该目录下,右击打开终端输入scp命名,将jar包上传至启动集群的Linux系统中"/opt/software/" 文件夹下 SCP。打包后在Linux系统中找到 idea的工作地址 然后点击 Idea_workspace -->xxx–> out -->执行结果,执行结果在集群中查看。

2024-06-06 21:47:47 241

原创 项目——手机流量分析

配置Hadoop、hdsf等网络环境统计每一个手机号耗费的总上行流量、下行流量、总流量Map阶段读取一行数据切分,抽取手机号、上行流量、下行流量,以手机号为key,bean对象value输出Reduce阶段累加上行流量和下行流量得到总流量

2024-06-06 00:56:10 193

信用卡客户违约分析与预测

文献,论文都在

2024-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除