风吹落红烛.-CSDN博客

原创 Day13-Spark SQL的学习

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-20 14:45:43 2023

原创 Day12-大模型的学习

NLP（Natural Language Processing），即“自然语言处理”，主要研究使用计算机来处理、理解及运用人类语言的各种理论和方法，属于人工智能的一个重要研究方向。简单来说，NLP就是如何让计算机理解人类语言。在NLP中，最细粒度的表示就是词语，但是计算机并不能直接识别词语，需要将词语转化为计算机可识别的数值形式，这种对词语的转化和表征就是“词汇表征”。。

2024-06-19 16:06:56 2273

原创 Day11-协同过滤算法

人们经常会在视频平台上观看影片，有时目标明确，想要观看某部电影，但有时仅仅是随机搜寻。如果视频平台可以利用基于物品的智能推荐系统，有效地从用户对其观看过的电影的评分中挖掘数据，便可以根据用户偏好的电影个性化地推荐更多类似的电影，优化用户体验，提高用户粘性，创造额外收入。

2024-06-18 15:19:27 2585

在数据计算层，作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算（当然也可以编写独立的MapReduce应用程序进行计算）；而Spark既可以做离线计算（Spark SQL），又可以做实时计算（Spark Streaming），它们底层都使用的是Spark的核心（Spark Core）。Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在一些工作负载方面表现得更加优越。

2024-06-16 12:55:40 1202

原创 Day8-Zookeeper和Hbase安装与配置

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-13 16:40:02 1142

原创 Day7-电商实战项目使用Hadoop实现（二）

具体代码1.GetPageld.javaimport org.apache.commons.lang3.StringUtils;import java.util.regex.Matcher;import java.util.regex.Pattern;public class GetPageId { public static String getPageId(String url) { String pageId = ""; if (StringUt

2024-06-13 09:11:01 369

原创 Day6——电商实战项目使用Hadoop实现（一）

根据电商日志文件，分析：统计页面浏览量（每行记录就是一次浏览）统计各个省份的浏览量（需要解析IP）日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-12 16:33:53 277

原创 Day5-Scala安装

Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。Scala运行于Java平台，Scala程序会通过JVM被编译成class字节码文件，然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下，并且Scala代码可以调用Java方法、继承Java类、实现Java接口等，几乎所有Scala代码都大量使用了Java类库。

2024-06-12 16:14:26 943

原创 Day4-手机流量统计项目

这是我第一次完整的做完这个项目，虽然在做的过程中遇到了许多的问题，但经过同学和在网上寻找问题的帮助下，最终还是完成了这个项目。

2024-06-12 11:03:20 467

原创 Day3-hadoop伪分布式集群安装

（a）/boot -> 1G -> 添加挂载点 -> 修改文件系统为ext4 -> 点击+（加号）（c）/ -> 45G -> 添加挂载点 -> 修改文件系统为ext4 -> 点击完成。（b）swap -> 4G -> 添加挂载点 -> 点击+（加号）打开网络按钮 -> 修改主机名 -> 点击应用 -> 点击完成。(1)打开VMware,点击文件->点击虚拟机->创建新的虚拟机。点击软件选择->点击GHOME->点击完成。

2024-06-05 21:38:39 720 1

原创 Day2-Linux相关事宜(二）

Linux用户管理和文件权限Linux操作系统是一个多用户操作系统，它允许多用户同时登录到系统上并使用资源。系统会根据账户来区分每个用户的文件，进程，任务和工作环境，使得每个用户工作都不受干扰。一.（1）Linux用户的分类超级用户root：权限最大，限制最小，uid=0普通用户：用来完成日常工作的用户，uid:500-60000系统用户：为了能够让那些后台进程或服务类进程以非管理员的身份运行的用户，不能登录服务器。uid：1-499（2）Linux用户组的分类普通用户组：可以加入多个

2024-06-04 22:05:42 808 1

原创 Day1-Linux相关事宜(一）

（）2）编辑网卡配置文件/etc/sysconﬁg/network-scripts/ifcfgens33，注：不同虚拟机，文件名可能不同。不过此时配置内容尚未生效，还需要执行source /etc/proﬁle命令使配置内容生效。录/export/software/（该目录需提前创建），然后执行rz -bey。执行vi /etc/proﬁle命令编辑系统环境变量文件proﬁle，在文件。命令将JDK安装包上传到虚拟机的/export/software/目录下。创建虚拟机时提供的默认网络信息。

2024-06-04 22:05:38 705 1