自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 大语言模型

大语言模型(Large Language Models)是一种基于深度学习的自然语言处理(NLP)模型,用于处理和生成人类语言文本。主要应用领域自然语言理解(NLU)文本分类信息抽取情感分析命名实体识别自然语言生成(NLG)文本生成摘要生成机器翻译对话生成与响应。

2024-06-21 00:14:19 344

原创 理解神经网络和机器学习的基本概念

神经网络是受到生物神经元启发的数学模型,它由多个神经元(节点)组成,通过连接权重(weights)和激活函数(activation function)来处理输入数据并生成输出。神经网络可以用于解决分类、回归、聚类等各种问题。机器学习是一种人工智能的分支,其目标是让计算机能够从数据中学习模式并做出预测或决策,而无需明确编程。机器学习可以分为监督学习、无监督学习和强化学习等不同类型。

2024-06-21 00:02:56 289

原创 关联规则分析

​ 上表事务库中的每一条记录被称为一笔事务。在购物篮事务中,每一次购物行为即为一笔事务,例如第一行数据“用户1购买商品A,B,C”即为一条事务。​ 在购物篮事务中,每样商品代表一个项,项的集合称为项集。每样商品的组合构成项集,例如“A,B”、 “A,C”、 “B,C”、 “A,B,C”都是一个项集,其实也就是不同商品的组合。​ 关联规则是形如X → Y的表达式,X称为前件,Y称为后件。​ 注意X和Y不是指单一的商品,而是指上面提到的项集,比如其形式可以为:{A, B} → {C},其含义就是如果购买商品A和

2024-06-20 23:56:20 321

原创 协同过滤算法

余弦相似度的范围是:[-1,1],夹角越小,余弦值越接近于1,两个向量越靠近,两者越相似。​ 如下表所示,图书A和图书B都被用户1,2,3购买过(1表示购买,0表示未购买),那么可以认为图书A和图书B具有较强的相似度,即可判断喜欢图书A的用户同样也会喜欢图书B。余弦相似度公式为: $$ \Large cos\theta = \frac{}{|| a|||| b||} $$​ 其中,表示的是向量a和向量b的内积,||a||和||b||分别表示向量a和向量b的模(长度)。

2024-06-20 23:49:01 866

原创 Spark SQL的基本使用和部署

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是,Hive是将SQL翻译成MapReduce作业,底层是基于MapReduce的;

2024-06-20 23:41:33 652

原创 Python超市电商数据分析项目

这里列出了项目部分代码及结果。由上面的透视表和折线图可以看出,2011-2014年的发货成本 逐年上升,而且每年的各个月份的发货成本也呈上升趋势;但 是,2015年出现了新的情况!2015年只有7个月的统计数据, 但是这7个月的发货成本逐月降低,而且远远小于前4年的发货 成本,这很可能是由于2015年物流业的飞速发展使得发货成本 大大降低,所以,之后的进货成本也极有可能大大降低!

2024-06-20 23:26:33 344

原创 Scala的基础

Scala是一种将面向对象和函数式编程结合在一起的高级语言,设计初衷是要集成面向对象编程和函数式编程的各种特性,旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大,不仅可以编写简单脚本,还可以构建大型系统。由于Spark主要是由Scala语言编写的,为了后续更好的学习Spark以及使用Scala编写Spark应用程序,需要首先学习使用Scala语言。def 方法名 (参数列表):返回类型={方法体例如,将两个数字求和然后返回,返回类型为Int:return sum。

2024-06-20 23:16:21 709

原创 大数据技术——HBase

HBase是一个分布式的、面向列的开源数据库,主要用于存储海量的非结构化数据,其设计思想来源于Google的BigTable论文。作为一个高可靠性、高性能的数据库,HBase利用Hadoop HDFS作为其文件存储系统,并借助ZooKeeper实现集群管理和协调服务。

2024-06-20 22:58:59 882

原创 大数据技术——Zookeeper

Zookeeper 是一个开源的分布式协调服务,用于分布式应用程序中的数据管理和协调。它提供了一套简单而有效的原语,用于实现诸如配置管理、同步、组服务和命名等复杂的分布式系统任务。核心功能配置管理:集中管理配置数据,支持动态更新和通知。命名服务:提供分布式命名和目录服务。分布式锁:实现分布式环境中的锁机制。集群管理:监控和管理分布式应用的节点状态。领导选举:确保集群中只有一个活跃的主节点。

2024-06-20 22:46:42 122

原创 Hive的搭建和基础知识

元数据包括表名、表所属的数据库、表的拥有者、列/分区字段等信息,这些信息默认存储在自带的Derby数据库中,但推荐使用MySQL来存储Metastore。然而,Hive也存在一些缺点,例如HQL表达能力有限,效率较低且调优困难。大数据生态中最重要的工具平台之一是 Hive,它是离线计算的关键组件,常用于数仓建设,在公司内会通过SQL实现大数据的统计与报表。总的来说,Hive作为一个强大的数据仓库工具,在处理大规模数据集时具有显著的优势,尽管在某些方面存在不足,但在大数据分析和处理领域仍然得到了广泛应用。

2024-06-20 22:37:58 260

原创 电商实战——Hadoop实现

今天我们将Hadoop技术应用到了一个电商数据分析项目中。通过分析用户行为数据,我们尝试找出潜在的商业价值。这个项目不仅锻炼了我的技术能力,也提高了我的团队协作能力。

2024-06-20 22:23:46 228

原创 基于MapReduce的手机流量统计

以上为MapReduce的代码,之后的执行结果在集群中查看,查看位置为 hadoop调用jar包将数据源文件处理后的文件存放位置。

2024-06-20 22:03:41 216

原创 Mapreduce和注册gitte

分片操作:指的是将源文件划分为大小相等的小数据块( Hadoop 2.x 中默认 128MB ),也就是分片( split ),Hadoop 会为每一个分片构建一个 Map 任务,并由该任务运行自定义的 map() 函数,从而处理分片里的每一条记录;在溢写过程中, MapReduce 框架会对 key 进行排序,如果中间结果比较大,会形成多个溢写文件,最后的缓冲区数据也会全部溢写入磁盘形成一个溢写文件,如果是多个溢写文件,则最后合并所有的溢写文件为一个文件。执行 ReduceTask。

2024-06-20 21:43:35 226

原创 hadoop和VMware的基础知识

前期进行Hadoop和VMware的基础知识复习方便后期项目进行。安装并配置了必要的软件环境,如VMware Workstation、CentOS操作系统、Hadoop、Hive等。我们深入了解了Hadoop的基础知识,包括其分布式存储系统HDFS和计算框架MapReduce。接触了VMware虚拟化技术,为后续的实训环境搭建打下基础。我对接下来的实训充满期待,希望能够掌握这些技术,并在项目中应用它们。之后按照教程操作完成虚拟机搭建。最终结果。

2024-06-20 21:34:49 299

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除