自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Datawhale第二季——大模型技术

该代码的主要功能是通过调用星火认知大模型(Spark3.5 Max),从一段群聊对话记录中提取结构化信息。必要的库导入和配置。提示语的设计。JSON 文件的读写功能。与星火认知大模型的交互功能。JSON 数据格式的检查和补全。主函数逻辑,实现数据的提取和处理。该代码通过调用星火认知大模型,从群聊对话记录中提取结构化信息,并对提取的数据进行格式检查和补全,最终将结果写入文件中。每个步骤都包含详细的处理逻辑,确保数据的完整性和准确性。

2024-06-29 20:43:26 282

原创 Datawhale第二季——机器学习打卡

本文将介绍如何使用CatBoost、LightGBM和XGBoost三个流行的机器学习库进行分类任务。我们将详细讲解代码的每一个步骤,包括数据预处理、特征工程和模型训练。以下是代码的详细解释。

2024-06-29 16:47:09 405

原创 Datawhale组队打卡学习——简单学习大语言模型

语言模型(LM)的经典定义是一种对令牌序列(token)的概率分布。假设我们有一个令牌集的词汇表VVV。语言模型p为每个令牌序列x1xLx1​...xL​∈VVVpx1xLpx1​xL​概率直观地告诉我们一个标记序列有多“好(good)”。p0.02p0.02p0.01p0.01p0.0001p0.0001从数学上讲,语言模型是一个非常简单而又美妙的对象。

2023-09-11 22:01:27 63

原创 DatawhaleAI夏令营第三期 - 用户新增预测挑战赛教程

讯飞开放平台针对不同行业、不同场景提供相应的AI能力和解决方案,赋能开发者的产品和应用,帮助开发者通过AI解决相关实际问题,实现让产品能听会说、能看会认、能理解会思考。用户新增预测是分析用户使用场景以及预测用户增长情况的关键步骤,有助于进行后续产品和应用的迭代升级。本次大赛提供了讯飞开放平台海量的应用数据作为训练样本,参赛选手需要基于提供的样本构建模型,预测用户的新增情况。赛题数据由约62万条训练集、20万条测试集数据组成,共包含13个字段。其中。

2023-08-16 19:52:52 104

原创 DatawhaleAI夏令营第三期 - 基于论文摘要的文本分类与关键词抽取挑战

医学领域的文献库中蕴含了丰富的疾病诊断和治疗信息,如何高效地从海量文献中提取关键信息,进行疾病诊断和治疗推荐,对于临床医生和研究人员具有重要意义。

2023-08-15 13:38:54 402

原创 neo4j用python导入Excel数据的方法

neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注。

2023-08-04 11:43:06 1688 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除