- 博客(6)
- 收藏
- 关注
原创 【Datawhale AI 夏令营2024】药效预测(3)
LightGBM (Light Gradient Boosting Machine)是一个实现 GBDT 算法的框架,支持高效率的并行训练,并且具有以下优点:更快的训练速度更低的内存消耗更好的准确率分布式支持,可以快速处理海量数据。
2024-08-03 16:08:01 755
原创 【Datawhale AI 夏令营2024】药效预测(2)
把序列特征的问题转化为表格问题的方法,并在表格数据上做特征工程。如何知道一个变量是类别型的呢,只需看下其值的分布,或者唯一值的个数这段代码是用来计算 DataFrame(或者 Pandas Series)中这一列(或者属性)中唯一值的数量。df.nunique()如果相较于数据的总行数很少,那么其很可能就是类别变量了,比如gene_target_symbol_name。此时,我们可以使用get_dummie函数来实现one-hot特征的构造df.str[3:-2]".": 使用方法判断。
2024-07-29 09:22:23 711
原创 【Datawhale AI 夏令营2024】药效预测(1)
本次比赛旨在利用机器学习技术,预测化学修饰后的siRNA序列在RNA干扰(RNAi)机制下对靶基因的沉默效率。RNAi是一种重要的基因表达调控机制,通过干扰特定基因的表达,可以用于疾病治疗。这次比赛的目标是通过构建并优化模型,准确预测siRNA的沉默效率,从而提升药物设计的效率和效果。
2024-07-26 12:51:51 846
原创 【Datawhale AI 夏令营2024】尝试深度学习
下面我们构建了cv_model函数,内部可以选择使用lightgbm、xgboost和catboost模型,可以依次跑完这三个模型,然后将三个模型的结果进行取平均进行融合。:窗口统计可以构建不同的窗口大小,然后基于窗口范围进统计均值、最大值、最小值、中位数、方差的信息,可以反映最近阶段数据的变化情况。:可以帮助获取相邻阶段的增长差异,描述数据的涨减变化情况。在此基础上还可以构建相邻数据比值变化、二阶差分等;第一层:(类比cv_model函数):通过历史平移获取上个阶段的信息;
2024-07-19 17:37:43 956
原创 【Datawhale AI 夏令营2024】入门lightgbm
LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。例如:在个性化商品推荐场景中,通常需要做点击预估模型。使用用户过往的行为(点击、曝光未点击、购买等)作为训练数据,来预测用户点击或购买的概率。
2024-07-17 11:37:10 276
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人