自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 开窗函数及其应用

是一种在数据库中对数据进行实时分析处理的特殊函数,也被称为 OLAP 函数(分析函数)。它可以在查询结果的基础上,为每一行数据添加一个额外的列,该列的值是通过对当前行及其他行的数据进行计算得到的。开窗函数通常用于数据分析、报表生成等场景,可以方便地实现对数据的分组、排序、聚合等操作。

2024-06-23 21:13:45 248

原创 大语言模型

大语言模型是一类具有大规模参数和强大语言处理能力的模型。它们通常通过在海量的文本数据上进行无监督学习训练而成。这些模型能够理解自然语言的语义、语法和语用等多方面的信息。其特点包括:1.强大的语言理解能力,可以解析复杂的语言结构和含义。2.出色的语言生成能力,能够生成连贯、有逻辑的文本内容。3.可以处理各式各样的自然语言任务,如文本生成、知识问答、推理计算、阅读理解等。一些知名的大语言模型有 OpenAI 的 GPT 系列、谷歌的 Bard、百度的文心一言等。

2024-06-23 21:06:53 174

原创 关联规则挖掘算法

关联规则挖掘算法是一种用于发现数据中不同项之间关联关系的算法。其中比较经典的是 Apriori 算法。它通过不断迭代,从大量的数据集中找出频繁项集,然后基于这些频繁项集来生成关联规则。关联规则挖掘算法的主要步骤包括:首先确定最小支持度和最小置信度阈值;然后扫描数据集找出满足最小支持度的频繁项集;接着根据频繁项集生成关联规则,并筛选出满足最小置信度的规则。

2024-06-23 21:02:44 212

原创 协同过滤算法

协同过滤算法是一种常用的推荐算法。它主要基于这样的理念:如果一些用户在过去对某些物品有相似的偏好或行为,那么这些用户对其他未接触过的物品的偏好也可能相似。协同过滤算法分为基于用户的协同过滤和基于物品的协同过滤。基于用户的协同过滤会找到与目标用户相似的其他用户,然后根据这些相似用户的偏好来向目标用户推荐物品。而基于物品的协同过滤则关注物品之间的相似性,根据用户过去喜欢的物品来推荐相似的物品。

2024-06-23 20:55:34 145

原创 Spark

Spark是一个大数据处理框架,它具有多种特性和优势,使得它在大数据领域有着广泛的应用。Spark是一个通用的大数据快速处理引擎,它使用一个技术堆栈解决了大数据领域的各种计算任务。它提供了Spark RDD、Spark SQL、Spark Streaming、MLlib和GraphX等工具库,以支持离线批处理、交互式查询、实时流计算、机器学习与图计算等任务。

2024-06-14 14:27:56 143

原创 计算机网络安全

定义:计算机网络安全旨在保护计算机硬件、软件和数据不会因偶然和故意的原因而遭到破坏、更改和泄露。重要性:保护个人隐私与信息安全:防止黑客或恶意攻击者窃取和滥用个人敏感信息。防止网络犯罪和数据盗窃:阻止黑客进行网络犯罪活动,保护机构和个人的重要数据。保障国家安全和社会稳定:防止网络攻击对国家重要基础设施、军事和经济体系的影响。经济发展的重要支撑:为各种电子商务、在线支付等经济活动提供安全可靠的网络环境。

2024-06-13 14:21:13 217

原创 Hbase

启动Hadoop集群:sbin/start-all.sh启动ZooKeeper服务:zkServer.sh start启动HBase服务:start-hbase.sh。

2024-06-13 14:10:02 102

原创 计算机生产实习

1打开虚拟机hadoop101终端,输入ifconfig。将子网地址修改成上述inet 192.168…2打开虚拟机网络编辑器。修改点击Vmnet8。

2024-06-12 17:57:37 131

原创 计算机生产实习

HDFS是分布式文件系统,有高容错性的特点,可以部署在价格低廉的服务器上,主要包含namenode和datanode。Namenode是hdfs中文件目录和文件分配管理者,它保存着文件名和数据块的映射管理,数据块和datanode列表的映射关系。其中文件名和数据块的关系保存在磁盘上,但是namenode上不保存数据块和datanode列表的关系,该列表是通过datanode上报建立起来的。DataNode它负责实际的数据存储,并将数据息定期汇报给NameNode。

2024-06-07 17:10:38 763

原创 计算机生产实习

Scala 是 Scalable Language 的简写,意味着这种语言设计上支持大规模软件开发,是一门多范式的编程语言Scala 语言是由 Martin Odersky 等人在 2003 年开发的,并于 2004 年首次发布。Scala 运行于 Java 平台(Java 虚拟机),并兼容现有的 Java 程序。Scala 的编译模型(独立编译,动态类加载)与 Java 和 C# 一样,所以 Scala 代码可以调用 Java 类库(对于.NET实现则可调用.NET类库)。

2024-06-06 16:27:41 1342

原创 计算机生产实习

今天是生产实习的第二天,进行了项目的开展。

2024-06-05 17:41:48 371 1

原创 计算机生产实习

今天是生产实习的第二天,我了解了Hadoop序列化和反序列化,序列化是将对象的状态信息转化为可以存储或传输的形式的过程,而反序列化则是将已经序列化的对象重新装配成对象的过程。

2024-06-05 16:42:55 191

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除