Zxmmy_77-CSDN博客

原创大语言模型

大语言模型（Large Language Models）是一种基于深度学习的自然语言处理（NLP）模型，用于处理和生成人类语言文本。主要应用领域自然语言理解（NLU）文本分类信息抽取情感分析命名实体识别自然语言生成（NLG）文本生成摘要生成机器翻译对话生成与响应。

2024-06-21 00:14:19 646

原创理解神经网络和机器学习的基本概念

神经网络是受到生物神经元启发的数学模型，它由多个神经元（节点）组成，通过连接权重（weights）和激活函数（activation function）来处理输入数据并生成输出。神经网络可以用于解决分类、回归、聚类等各种问题。机器学习是一种人工智能的分支，其目标是让计算机能够从数据中学习模式并做出预测或决策，而无需明确编程。机器学习可以分为监督学习、无监督学习和强化学习等不同类型。

2024-06-21 00:02:56 421

上表事务库中的每一条记录被称为一笔事务。在购物篮事务中，每一次购物行为即为一笔事务，例如第一行数据“用户1购买商品A,B,C”即为一条事务。在购物篮事务中，每样商品代表一个项，项的集合称为项集。每样商品的组合构成项集，例如“A,B”、 “A,C”、 “B,C”、 “A,B,C”都是一个项集，其实也就是不同商品的组合。关联规则是形如X → Y的表达式，X称为前件，Y称为后件。注意X和Y不是指单一的商品，而是指上面提到的项集，比如其形式可以为：{A, B} → {C}，其含义就是如果购买商品A和

2024-06-20 23:56:20 540

原创协同过滤算法

余弦相似度的范围是：[-1,1]，夹角越小，余弦值越接近于1，两个向量越靠近，两者越相似。如下表所示，图书A和图书B都被用户1，2，3购买过（1表示购买，0表示未购买），那么可以认为图书A和图书B具有较强的相似度，即可判断喜欢图书A的用户同样也会喜欢图书B。余弦相似度公式为： $$ \Large cos\theta = \frac{}{|| a|||| b||} $$ 其中，表示的是向量a和向量b的内积，||a||和||b||分别表示向量a和向量b的模（长度）。

2024-06-20 23:49:01 1010

原创 Spark SQL的基本使用和部署

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是，Hive是将SQL翻译成MapReduce作业，底层是基于MapReduce的；

2024-06-20 23:41:33 1002

原创 Python超市电商数据分析项目

这里列出了项目部分代码及结果。由上面的透视表和折线图可以看出，2011-2014年的发货成本逐年上升，而且每年的各个月份的发货成本也呈上升趋势；但是，2015年出现了新的情况！2015年只有7个月的统计数据，但是这7个月的发货成本逐月降低，而且远远小于前4年的发货成本，这很可能是由于2015年物流业的飞速发展使得发货成本大大降低，所以，之后的进货成本也极有可能大大降低！

2024-06-20 23:26:33 563

原创 Scala的基础

Scala是一种将面向对象和函数式编程结合在一起的高级语言，设计初衷是要集成面向对象编程和函数式编程的各种特性，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。由于Spark主要是由Scala语言编写的，为了后续更好的学习Spark以及使用Scala编写Spark应用程序，需要首先学习使用Scala语言。def 方法名 (参数列表):返回类型={方法体例如，将两个数字求和然后返回，返回类型为Int：return sum。

2024-06-20 23:16:21 932

原创大数据技术——HBase

HBase是一个分布式的、面向列的开源数据库，主要用于存储海量的非结构化数据，其设计思想来源于Google的BigTable论文。作为一个高可靠性、高性能的数据库，HBase利用Hadoop HDFS作为其文件存储系统，并借助ZooKeeper实现集群管理和协调服务。

2024-06-20 22:58:59 1352

原创大数据技术——Zookeeper

Zookeeper 是一个开源的分布式协调服务，用于分布式应用程序中的数据管理和协调。它提供了一套简单而有效的原语，用于实现诸如配置管理、同步、组服务和命名等复杂的分布式系统任务。核心功能配置管理：集中管理配置数据，支持动态更新和通知。命名服务：提供分布式命名和目录服务。分布式锁：实现分布式环境中的锁机制。集群管理：监控和管理分布式应用的节点状态。领导选举：确保集群中只有一个活跃的主节点。

2024-06-20 22:46:42 246

原创 Hive的搭建和基础知识

元数据包括表名、表所属的数据库、表的拥有者、列/分区字段等信息，这些信息默认存储在自带的Derby数据库中，但推荐使用MySQL来存储Metastore。然而，Hive也存在一些缺点，例如HQL表达能力有限，效率较低且调优困难。大数据生态中最重要的工具平台之一是 Hive，它是离线计算的关键组件，常用于数仓建设，在公司内会通过SQL实现大数据的统计与报表。总的来说，Hive作为一个强大的数据仓库工具，在处理大规模数据集时具有显著的优势，尽管在某些方面存在不足，但在大数据分析和处理领域仍然得到了广泛应用。

2024-06-20 22:37:58 339

Zxmmy_77的博客

原创大语言模型

原创理解神经网络和机器学习的基本概念

原创关联规则分析

原创协同过滤算法

原创 Spark SQL的基本使用和部署

原创 Python超市电商数据分析项目

原创 Scala的基础

原创大数据技术——HBase

原创大数据技术——Zookeeper

原创 Hive的搭建和基础知识

原创电商实战——Hadoop实现

原创基于MapReduce的手机流量统计

原创 Mapreduce和注册gitte

原创 hadoop和VMware的基础知识

空空如也

空空如也