特征工程进阶，持续上分#Datawhale AI夏令营

2301_81894120

已于 2024-08-04 00:11:49 修改

阅读量195

点赞数 3

文章标签：深度学习机器学习人工智能

于 2024-08-03 23:51:12 首次发布

本文链接：https://blog.csdn.net/2301_81894120/article/details/140898572

版权

从特征和模型训练两个角度优化上次的代码

生物学角度新特征

1.使用反义链与target gene序列的序列匹配结果作为特征来增强模型表现。

2.GC含量是siRNA效率中的一个重要且基本的参数，可以作为模型预测的特征。

3.将修饰过的碱基序列也进行编码，简单的编码方式是将带有修饰的核苷酸编码为和普通核苷酸不一样的输入向量，复杂的编码方式是将不同修饰在化学上的差异也加入模型中。

lgm上分实现

在之前的基础上优化了模型

由原来的root_mean_squared_error评价指标被替换为更加复杂的官方评价分数，具体公式为:

$$\text{score} = 50\% \times \left(1 - \frac{\text{MAE}}{100}\right) + 50\% \times F1 \times \left(1 - \frac{\text{Range-MAE}}{100}\right)$$

通过自适应学习率、多折交叉训练进一步优化

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2301_81894120

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征工程进阶，持续上分#Datawhale AI夏令营

从特征和模型训练两个角度优化上次的代码。
复制链接

扫一扫

Task3: 进阶上分——赛题解析与新baseline解读#AI夏令营 #Datawhale #Datawhale AI 夏令营

nnnwwwlin的博客

08-03

777

AI极端降水预报：提供历史时段伏羲气象大模型未来72小时逐小时的多个气象要素以及对应时段的ERA5降水数据，输出给定时段的基于伏羲气象大模型要素作为输入的AI极端降水预测。

DataWhale夏令营 task3：特征工程进阶，持续上分

2302_80159886的博客

08-03

259

对task2引入的长度、GC含量等特征细节刻画，引入生物知识先验。

参与评论您还未登录，请先登录后发表或查看评论

#AI夏令营 #Datawhale #夏令营

a19884792066的博客

07-07

467

你是一个数据处理专家，你需要对以下客户反馈进行总结。客户反馈： 1. "产品很好，但是发货有点慢。" 2. "客服态度非常好，解答了我所有的问题。" 3. "产品质量不错，但价格有点贵。优化Prompt根据模型的输出不断调整和优化Prompt。确保Prompt中没有歧义，让模型清楚理解任务。在必要时提供上下文信息，帮助模型更好地完成任务。数据处理Prompt是为了引导模型完成特定的数据处理任务而设计的输入提示。通过精心设计的Prompt，可以有效提高模型在数据处理任务上的准确性和效率。

##Datawhale AI夏令营之 AI for Science（AI+药物）#深度学习 #task 3

2301_76567616的博客

08-02

369

多折交叉训练（K-Fold Cross-Validation）是一种常用的机器学习评估方法，它将数据集分为K个等大的子集，其中K-1个子集用于训练模型，剩下的1个子集用于验证模型的性能。这个过程重复K次，每次使用不同的子集作为验证集，其余的子集作为训练集。最后，我们可以使用保存的模型进行预测，或者使用模型融合技术来提高预测的准确性。由于我刚接触py和机器学习，还有很多知识没有进行学习，task3的内容就不在进行详解了(涉及到一些很厉害的知识，我不会hh，正在进行学习中)在Python中，可以使用。

生命科学siRNA药物药效预测之特征工程进阶（Datawhale AI 夏令营）

不想宅的冷同学

08-02

1314

通过这三篇文章的深入探讨，我们从最初的基础特征工程到RNN模型的应用，再到本文的生物学特征的挖掘与分析，逐步提升了siRNA药效预测的准确性。我们不仅应用了传统的机器学习方法，还探索了深度学习技术和生物学先验知识的结合，这为我们提供了更全面的理解和更精确的预测能力。未来的工作中，我们将继续探索更复杂的模型架构，如Transformer，并尝试将多模态数据融合到模型中，以进一步提升预测效果。我们相信，这些探索不仅将推动核酸药物研发的发展，也为更广泛的生物医药研究提供了新的工具和思路。

电力需求预测挑战赛笔记 Task3 #Datawhale AI 夏令营

qq_23311271的博客

07-20

699

电力需求预测挑战赛笔记 Task3

#Datawhale AI 夏令营第三期—siRNA药物药效预测学习

2301_80270213的博客

07-26

1198

随着mRNA疫苗在新冠预防领域取得成功，核酸类药物的研发获得了越来越多的关注。本次比赛聚焦于通过机器学习技术，利用化学修饰后的siRNA序列来预测RNA干扰（RNAi）机制下对靶基因（target gene）的沉默效率，这一指标与药物实际疗效直接相关。RNAi是生物体内天然存在的一种基因表达调控机制，通过抑制靶基因的表达来实现降低目标蛋白量的目的，这一机制一般可通过siRNA实现。目前开源的数据库中，以RNA主干序列（裸序列）为主，缺少相应的化学修饰数据。

电力需求预测挑战赛Task2学习笔记 #Datawhale AI夏令营

2201_75911840的博客

07-17

878

LightGBM 是一个实现 GBDT 算法的框架，具有训练速度快、内存消耗低、准确率高、分布式支持等优点，主要通过Histogram 算法、带深度限制的 Leaf-wise 叶子生长策略和直方图做差加速等技术进行优化。Histogram 算法通过将连续的浮点特征值离散化为整数，并构建宽度为 k 的直方图，来降低内存消耗和计算代价。该算法在遍历数据时累积统计量，并根据直方图离散值寻找最优分割点。

科大讯飞平台电力需求预测挑战赛#AI夏令营 #Datawhale #夏令营

qq_45780715的博客

07-17

631

#AI夏令营 #Datawhale #夏令营

代码脚本文件+数据集#Datawhale AI夏令营

07-28

代码脚本文件+数据集#Datawhale AI夏令营

【Datawhale AI 夏令营第三期学习笔记Taks1】跑通baseline #Datawhale AI 夏令营

07-28

【Datawhale AI 夏令营第三期学习笔记Taks1】跑通baseline #Datawhale AI 夏令营

NLP学习（Datawhale AI夏令营） TASK01#Datawhale示例代码

07-15

NLP学习（Datawhale AI夏令营） TASK01#Datawhale示例代码

深度学习 —— 个人学习笔记14（ResNet、DenseNet）

最新发布

Springer的博客

08-06

119

本文章为个人学习使用，版面观感若有不适请谅解，文中知识仅代表个人观点，若出现错误，欢迎各位批评指正。文中部分知识参考：B 站 —— 跟李沐学AI；

【深度学习】【语音TTS】OpenVoice: Versatile Instant Voice Cloning，论文

q742971636的博客

08-02

151

我们介绍了OpenVoice，一种多功能的即时语音克隆方法，只需参考说话者的短音频片段即可复制其声音，并生成多语言的语音。OpenVoice在解决以下领域开放挑战方面取得了重要进展：1）灵活的声音风格控制。OpenVoice允许对声音风格进行细粒度控制，包括情感、口音、节奏、停顿和语调，除了复制参考说话者的音色外。这些声音风格并不直接复制并受限于参考说话者的风格。之前的方法在克隆后无法灵活操控声音风格。2）零-shot跨语言语音克隆。

人工智能深度学习系列—GANs的对抗博弈：深入解析Adversarial Loss

u013889591的专栏

08-05

1355

生成对抗网络（GANs）作为深度学习中的一大突破，其核心机制是通过对抗性训练生成逼真的数据。Adversarial Loss，即对抗性损失，是GANs中用于训练判别器，以区分真实数据与生成数据的关键技术。本文将详细介绍Adversarial Loss的背景、计算公式、使用场景、代码实现及总结。生成对抗网络（GANs）由Goodfellow等人于2014年提出，它包含两个关键组件：生成器（Generator）和判别器（Discriminator）。

人工智能深度学习系列—深度学习中的相似性追求：Triplet Loss 全解析

u013889591的专栏

08-03

556

在机器学习和模式识别领域，相似性度量是核心问题之一。Triplet Loss，作为一种特殊的损失函数，被设计用来学习数据的相对距离，从而使得相似样本更接近，不同样本更疏远。本文将详细介绍Triplet Loss的背景、计算方法、使用场景、代码实现及总结。Triplet Loss最早由Schroff等人在2015年提出，用于改进深度学习中的度量学习任务。它通过。

LSTM长短时记忆网络【数学+图解】

逐梦苍穹的博客

08-06

721

LSTM长短时记忆网络【数学+图解】

深度学习读书笔记（1）--机器学习、人工智能、深度学习的关系

qiaoxinyu1989的博客

08-03

911

（1）传统软件传统软件是「if-then」的基本逻辑，人类通过自己的经验总结出一些有效的规则，然后让计算机自动的运行这些规则。传统软件永远不可能超越人类的知识边界，因为所有规则都是人类制定的。简单的说：传统软件是「基于规则」的，需要人为的设定条件，并且告诉计算机符合这个条件后该做什么。图2 传统软件的逻辑这种逻辑在处理一些简单问题时非常好用，因为规则明确，结果都是可预期的，程序员就是软件的上帝。

Datawhale AI 夏令营

07-12

这个暑期项目旨在激发参与者对人工智能、大数据和机器学习的兴趣，通过一系列课程、实践项目和比赛，帮助他们提升相关的技能知识。活动中，学员可以学习到从基础知识到实战应用的内容，比如Python编程、数据处理、...