自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 大语言模型的发展与挑战

大语言模型 (Large Language Models, LLM) 是近年来自然语言处理 (NLP) 领域的突破性进展,它改变了我们与机器交互的方式,并打开了智能应用的新篇章。本文将深入探讨大语言模型的概念、关键技术、应用场景、挑战和未来发展趋势。大语言模型是一种基于深度学习的 NLP 模型,它通过学习大规模语料库中的语言模式,能够理解和生成复杂的语言结构,具备记忆和推理能力,并能够进行上下文理解。

2024-06-21 15:17:58 746

原创 SparkSQL:大数据处理的加速器

在当今数据驱动的世界中,处理和分析大规模数据集的能力是至关重要的。Apache Spark是一个强大的开源数据处理框架,它能够快速处理和分析数据。而SparkSQL作为Spark生态系统的一部分,为处理结构化和半结构化数据提供了SQL接口和丰富的数据处理功能。SparkSQL是Apache Spark的一个模块,它提供了一个编程抽象,允许用户使用SQL语句来处理数据。

2024-06-21 15:17:45 791

原创 基于Langchain-chatchat搭建本地智能知识问答系统

基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。依托于本项目支持的开源 LLM 与 Embedding 模型,本项目可实现全部使用开源模型离线私有部署。与此同时,本项目也支持 OpenAI GPT API 的调用,并将在后续持续扩充对各类模型及模型API 的接入。

2024-06-21 15:17:24 687

原创 关联规则分析

关联规则分析是一种从大型数据集中发现有趣关系的方法,旨在发现数据集中不同项之间的有趣关系。它通过寻找频繁出现的项集,进而揭示这些项之间的关联模式。例如,在超市的销售数据中,可能会发现购买面包的顾客往往也会购买牛奶,这就是一种关联规则。

2024-06-21 15:16:56 741

原创 Python文本挖掘数据分析——竞争分析(1)

分析流程:1. 品类分布:依据各个商家产品类别和适用对象的分布,理解每个品牌的产品分布情况(横向发展还是纵向发展)2. 产品结构:依据波士顿矩阵,分析各品牌不同产品的结构特征,为产品发展策略提供依据

2024-06-21 15:13:13 1704

原创 Linux入门参考

Linux是一套免费使用和自由传播的类Unix操作系统,它是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux最初由芬兰程序员林纳斯·托瓦兹(Linus Torvalds)在1991年开发,并迅速获得了全球开发者的支持和贡献。Linux能够运行主要的UNIX工具软件、应用程序和网络协议,支持32位和64位硬件,并且继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统.

2024-06-20 16:16:42 2119

原创 Scala:一门融合函数式编程和面向对象编程的强大语言

Scala是一种强大而灵活的编程语言,它将函数式编程的优雅和面向对象编程的实用性完美结合。Scala不仅仅是一门语言,它是一种思维方式,一种将复杂问题简化的高效手段。在这个多核时代,Scala的并发编程模型为我们提供了一种新的解决方案。随着大数据和云计算的兴起,Scala的重要性愈发凸显。

2024-06-20 14:19:45 770

原创 Zookeeper:分布式系统中的协调者

在当今的分布式系统环境中,服务的协调和管理是一个复杂且关键的问题。Zookeeper,作为一个开源的分布式协调服务,为这个问题提供了一个高效的解决方案。它是许多分布式应用和服务的基础设施,例如Hadoop、HBase和Kafka等。本文将探讨Zookeeper的核心概念、功能以及它在分布式系统中的作用。Zookeeper 是一个高性能、可靠的分布式协调服务,为分布式应用提供了丰富的功能。

2024-06-20 11:32:59 914

原创 HBase:大数据时代的分布式存储利器

HBase是基于Google的BigTable模型开发的一个分布式、可扩展、支持列存储的NoSQL数据库。它运行在Hadoop分布式文件系统(HDFS)之上,为用户提供了一种高可靠性、高性能、可伸缩的大数据存储解决方案。HBase利用Hadoop的MapReduce进行数据计算,与Hadoop生态系统中的其他组件(如Hive、Pig、Spark等)紧密集成,共同构成了大数据处理平台。HBase作为一款分布式列存储系统,以其高可靠性、高性能、可伸缩性和灵活的数据模型,在大数据时代具有广泛的应用前景。

2024-06-20 10:56:36 565

原创 Spark配置

Apache Spark是一个强大的分布式计算系统,它提供了简单易用的高级API,用于处理大规模数据集。为了充分利用Spark的能力,合理配置是至关重要的。本文将为您详细介绍Spark的配置,帮助您优化集群性能与资源管理。Apache Spark 简介Apache Spark 是一个开源的分布式计算框架,它被设计用来处理大规模数据处理任务。Spark 以其快速的处理速度和易用性而闻名,特别是在处理需要多次迭代计算的任务时,如机器学习和数据挖掘算法。

2024-06-19 16:39:03 593

原创 协同过滤算法

协同过滤算法是推荐系统中的一种经典方法,它通过分析用户的历史行为数据来预测用户可能感兴趣的物品。协同过滤算法主要分为两种类型:基于用户的协同过滤(User-based Collaborative Filtering, UCF)和基于物品的协同过滤(Item-based Collaborative Filtering, ICF)。此外,还有基于模型的协同过滤,如矩阵分解、奇异值分解等。

2024-06-19 16:09:22 802

原创 Hive的安装、配置

Hive是一个建立在Hadoop上的数据仓库基础构架,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。此外,Hive还允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作。Hive没有专门的数据格式(分隔符等可以自己灵活的设定),并且不适用于在线事务处理,最适用于传统的数据仓库任务和大数据分析,对实时性要求不高的场合。

2024-06-18 20:14:48 689

原创 【码云(Gitee)使用】

团队的创建者需要登录到自己的码云账号,在个人主页或者仓库页面找到“团队”或“Organizations”选项,然后点击“新建团队”,填写团队名称、描述等信息。问题追踪:码云提供了问题追踪功能,开发者可以在项目中提交问题(Issue),并对问题进行分配、标签、评论等操作,方便团队成员之间进行沟通和任务分配。码云提供了问题追踪功能,团队成员可以在项目中提交问题(Issue),并对问题进行分配、标签、评论等操作,方便团队成员之间进行沟通和任务分配。在团队的仓库页面,点击“新建仓库”,填写项目信息并创建项目。

2024-06-13 13:58:03 1396

原创 【手机流量分析项目】

手机流量统计是通讯运营商和用户都非常关注的问题。随着移动互联网的快速发展,人们对数据流量的需求日益增长,对流量的精确统计和合理管理也变得尤为重要。在此背景下,手机流量统计项目应运而生。

2024-06-11 00:31:01 224

原创 【虚拟机中安装IDEA】

准备工作: 1.确保您的虚拟机安装了操作系统,并且该操作系统是 IntelliJ IDEA 支持的版本(通常是 Windows、macOS 或 Linux)。2.最好确保您的虚拟机可以连接到互联网。

2024-06-05 16:14:15 600 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除