自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 【Datawhale AI 夏令营2024】药效预测(3)

LightGBM (Light Gradient Boosting Machine)是一个实现 GBDT 算法的框架,支持高效率的并行训练,并且具有以下优点:更快的训练速度更低的内存消耗更好的准确率分布式支持,可以快速处理海量数据。

2024-08-03 16:08:01 755

原创 【Datawhale AI 夏令营2024】药效预测(2)

把序列特征的问题转化为表格问题的方法,并在表格数据上做特征工程。如何知道一个变量是类别型的呢,只需看下其值的分布,或者唯一值的个数这段代码是用来计算 DataFrame(或者 Pandas Series)中这一列(或者属性)中唯一值的数量。df.nunique()如果相较于数据的总行数很少,那么其很可能就是类别变量了,比如gene_target_symbol_name。此时,我们可以使用get_dummie函数来实现one-hot特征的构造df.str[3:-2]".": 使用方法判断。

2024-07-29 09:22:23 711

原创 【Datawhale AI 夏令营2024】药效预测(1)

本次比赛旨在利用机器学习技术,预测化学修饰后的siRNA序列在RNA干扰(RNAi)机制下对靶基因的沉默效率。RNAi是一种重要的基因表达调控机制,通过干扰特定基因的表达,可以用于疾病治疗。这次比赛的目标是通过构建并优化模型,准确预测siRNA的沉默效率,从而提升药物设计的效率和效果。

2024-07-26 12:51:51 846

原创 【Datawhale AI 夏令营2024】尝试深度学习

下面我们构建了cv_model函数,内部可以选择使用lightgbm、xgboost和catboost模型,可以依次跑完这三个模型,然后将三个模型的结果进行取平均进行融合。:窗口统计可以构建不同的窗口大小,然后基于窗口范围进统计均值、最大值、最小值、中位数、方差的信息,可以反映最近阶段数据的变化情况。:可以帮助获取相邻阶段的增长差异,描述数据的涨减变化情况。在此基础上还可以构建相邻数据比值变化、二阶差分等;第一层:(类比cv_model函数):通过历史平移获取上个阶段的信息;

2024-07-19 17:37:43 956

原创 【Datawhale AI 夏令营2024】入门lightgbm

LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。例如:在个性化商品推荐场景中,通常需要做点击预估模型。使用用户过往的行为(点击、曝光未点击、购买等)作为训练数据,来预测用户点击或购买的概率。

2024-07-17 11:37:10 276

原创 【Datawhale AI 夏令营2024】体验 baseline

task 01

2024-07-13 21:12:44 365

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除