自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 生产实习Day14 ---- 大语言模型(LLM)

大语言模型是一种基于深度学习的自然语言处理 (NLP) 模型,能够理解和生成人类语言文本。强大的语言理解能力: 能够理解和生成复杂的语言结构,包括语法、语义和上下文信息。记忆和推理能力: 能够记忆大量的语言知识,并根据上下文进行推理和判断。学习能力强: 能够学习大规模语料库中的语言模式,并不断改进自身性能。应用广泛: 可以应用于自然语言理解、自然语言生成、机器翻译、智能客服、智能写作等众多领域。

2024-06-21 01:52:45 797

原创 生产实习Day11 ---- 协同过滤算法

例如,如果用户A喜欢电影A和电影B,那么可以向用户A推荐与电影A和电影B相似的电影C。例如,如果用户A和用户B都喜欢电影A和B,那么可以向用户A推荐用户B喜欢的电影C。协同过滤算法的核心思想是:根据用户群体对产品偏好的数据,发现用户之间的相似性或者物品之间的相似性,并基于这些相似性为用户作推荐。:用户的数量往往非常庞大,而物品数量相对有限,因此计算不同物品之间的相似度比计算不同用户的相似度容易很多。:用户的喜好较为多变,而物品属性较明确不随时间变化,因此可以预先离线计算好物品间的相似度,提升推荐效率。

2024-06-21 01:51:44 484

原创 生产实习Day13 ---- 神经网络模型介绍

大语言模型是一种基于深度学习的自然语言处理 (NLP) 模型,能够理解和生成人类语言文本。强大的语言理解能力: 能够理解和生成复杂的语言结构,包括语法、语义和上下文信息。记忆和推理能力: 能够记忆大量的语言知识,并根据上下文进行推理和判断。学习能力强: 能够学习大规模语料库中的语言模式,并不断改进自身性能。应用广泛: 可以应用于自然语言理解、自然语言生成、机器翻译、智能客服、智能写作等众多领域。大语言模型作为一项颠覆性的技术,正在推动着人工智能的发展,并为我们的生活和工作带来革命性的变化。

2024-06-20 01:57:22 980

原创 生产实习Day12 ---- 关联规则分析介绍

协同过滤算法和关联规则分析是构建智能推荐系统的两种重要算法。通过理解它们的原理和应用,我们可以构建更加精准和个性化的推荐系统,提升用户体验和商业价值。未来展望深度学习推荐系统:利用深度学习技术,可以更好地捕捉用户和物品的复杂特征,实现更精准的推荐。多源数据融合:结合用户行为数据、社交网络数据、商品属性数据等多源数据,可以构建更加全面和精准的推荐模型。可解释性推荐系统:提高推荐系统的可解释性,让用户了解推荐结果的原因,提升用户信任度。

2024-06-20 01:57:06 1160

原创 生产实习Day10 ---- SparkSQL介绍

Spark SQL是一个用于处理结构化数据的Spark组件。它允许我们使用SQL或熟悉的API在Spark程序中查询结构化数据。与传统的MapReduce不同,Spark SQL底层使用的是Spark RDD,这使得它在处理大数据时更加高效。当内置函数无法满足需求时,我们可以编写自定义函数(UDF)。例如,为了保护用户隐私,我们可以编写一个UDF来隐藏手机号的中间4位数字。

2024-06-17 19:03:54 1157

原创 生产实习Day9 ---- Scala介绍

Scala的设计目标是提供一种简洁、高效且可扩展的语言,用于处理复杂的应用程序,尤其是在大数据和分布式计算领域。随着大数据和云计算的不断发展,Scala的重要性将继续增长。Scala在大数据处理框架(如Apache Spark)中被广泛使用,因为它的函数式特性和对并发的支持使其成为处理大规模数据集的理想选择。例如,Spark的API就是用Scala编写的,提供了丰富的数据操作和转换功能。随着大数据和云计算的兴起,Scala因其出色的性能和表达能力,在数据处理框架(如Apache Spark)中被广泛使用。

2024-06-16 21:06:41 604

原创 生产实习Day8 ---- Zookeeper&Hbase介绍

ZooKeeper对于HBase来说是一个关键组件,它提供了分布式环境中的协调服务,确保了HBase集群的稳定性和一致性。两者共同工作,使得HBase成为一个可靠、可扩展的分布式数据库系统。

2024-06-14 00:35:45 975

原创 生产实习Day7 ---- Hive介绍

针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。​ 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例。​ 使用场景,例如:某个公司的原始日志数据存放在一个目录中,多个部。​ 使用场景:可以通过分区表,将每天搜集的数据进行区分,查询统计的时。创建外部表需要使用EXTERNAL关键字,当删除外部表的时候,只删除元。分区表可以是内部表,也可以是外部表。不存在的,需要在添加数据的时候手动指定。使删除了外部表,原始数据并不会被删除。

2024-06-13 15:31:28 1116

原创 生产实习Day6 ---- 电商日志数据分析(问题3--日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程))

根据电商日志文件,分析: 1. 统计页面浏览量(每行记录就是一次浏览)2. 统计各个省份的浏览量 (需要解析IP)3. 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-13 09:05:26 1289

原创 生产实习Day5 ---- 电商日志数据分析(问题2--统计各个省份的浏览量 (需要解析IP))

根据电商日志文件,分析: 1. 统计页面浏览量(每行记录就是一次浏览)2. 统计各个省份的浏览量 (需要解析IP)3. 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-13 01:41:09 1104 2

原创 生产实习Day4 ---- 电商日志数据分析(问题1--统计页面浏览量(每行记录就是一次浏览))

根据电商日志文件,分析: 1. 统计页面浏览量(每行记录就是一次浏览)2. 统计各个省份的浏览量 (需要解析IP)3. 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-10 11:54:50 994 2

原创 生产实习Day1 ---- Linux介绍

Linux是一个性能稳定、功能强大、效率高、安全且内核开源的操作系统。其内核由当时还是芬兰赫尔辛基大学学生的林纳斯·本纳第克特·托瓦兹(Linus Benedict Torvalds)于1991年10月5日首次发布。

2024-06-08 14:05:10 931

原创 生产实习Day3----MapReduce项目练习(手机流量统计项目)

统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。13* ==> ..15* ==> ..other ==> ..

2024-06-08 04:13:02 1150 2

原创 生产实习Day2----安装IDEA和Maven

在虚拟机CentOS上安装IDEA和Maven

2024-06-04 22:58:45 447 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除