菜菜0319-CSDN博客

原创 Hive安装

Hive介绍Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。使用Hive的原因Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容，大大降低了传统数据分析人员处理大数据的难度以MR 作为计算引擎（也可选择Spark计算引擎）、HDFS 作为存储系统，为超大数据集设计的计算/ 扩展能力Hive架构。

2024-06-21 14:25:39 888

原创电商日志数据分析

Day4 主要完成第三问：日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）

2024-06-21 02:03:14 526

原创代码提交到gittee（码云）

其中姓名为必选项，填写后与个人地址空间一致，设置复杂一些，否则会出现个人地址空间已存在的情况。Git.exe Path选择Git的安装目录下的bin目录，点击下一步。进行配置小乌龟和Git，确定好Git已经安装成功，默认点击下一步。可以修改一下安装的路径，点击Browse，选择自定义路径。如图所示，提交成功，点击Push，推送代码到远程仓库。可以修改安装地址，点击Browse，更改自定义目录。添加成功，点击Commit，提交代码到本地仓库中。一路默认安装即可，点击Next，如下图所示。

2024-06-21 01:55:27 360

原创电商日志数据分析

Day3主要完成第二问：统计各个省份的浏览量（需要解析IP）

2024-06-21 01:35:25 657

原创电商日志数据分析

日志产生的渠道有nginx日志、ajax加载的一些动态的图片、位置等信息。本次我们提供了一个电商日志打～/data/trackinfo_20130721.data原始日志说明我们需要的：第二个字段=url、第十四个字段=ip、第十八个字段=时间字段的解析：我们会从ip中解读出国家、省份、城市，从url中解析出页面的idDay2主要完成第一问：统计页面浏览量（每行记录就是一次浏览）

2024-06-21 01:29:44 499

原创 hadoop伪分布式集群配置

进入Linux操作系统中存放应用安装包的目录/export/software/（该目录需提前创建），然后执行rz -bey命令将JDK安装包上传到虚拟的/export/software/目录下。vi /export/servers/hadoop-3.2.0/etc/hadoop/core-site.xml （后面到yarn-site.xml，文件地址都是这个，只需修改文件名）（14）修改stop-yarn.sh 文件（在hadoop-3.2.0/sbin目录下），在文件前面增加如下内容。

2024-06-20 15:04:56 408

原创虚拟机中安装IDEA

准备工作： 1.确保您的虚拟机安装了操作系统，并且该操作系统是 IntelliJ IDEA 支持的版本（通常是 Windows、macOS 或 Linux）。2.最好确保您的虚拟机可以连接到互联网。

2024-06-13 11:09:53 316

原创在虚拟机上，将编写的MapReduce程序打包并上传，启动集群的Linux系统中

2.选择: Build --> Build Artifacts --> Build，然后耐心等待一会，在左侧会自动生成一个out的文件，点击： out —> artifacts —> xxx_ jar。在该目录下，右击打开终端输入scp命名，将jar包上传至启动集群的Linux系统中"/opt/software/" 文件夹下 SCP。打包后在Linux系统中找到 idea的工作地址然后点击 Idea_workspace -->xxx–> out -->执行结果，执行结果在集群中查看。

2024-06-06 21:47:47 241

原创项目——手机流量分析

配置Hadoop、hdsf等网络环境统计每一个手机号耗费的总上行流量、下行流量、总流量Map阶段读取一行数据切分，抽取手机号、上行流量、下行流量，以手机号为key，bean对象value输出Reduce阶段累加上行流量和下行流量得到总流量

2024-06-06 00:56:10 193

A_aicai_的博客

原创 Hive安装

原创电商日志数据分析

原创代码提交到gittee（码云）

原创电商日志数据分析

原创电商日志数据分析

原创 hadoop伪分布式集群配置

原创虚拟机中安装IDEA

原创在虚拟机上，将编写的MapReduce程序打包并上传，启动集群的Linux系统中

原创项目——手机流量分析

信用卡客户违约分析与预测

空空如也