Datawhale AI夏令营 siRNA task3

#Datawhale AI夏令营

task3的练习是通过发布者给出的各种上分思路,优化代码,从而获得更高分数。

发布者先是提供了一些生物学角度新特征的科学前沿论文,来提供新的思路,给大家说明现在的siRNA反义链与target gene的匹配程度,以及匹配位置,从而对预测目标产生影响。

发布者再次使用lightgbm来实现这个思路,例如:

def siRNA_feat_builder3(s: pd.Series, anti: bool = False):
    name = "anti" if anti else "sense"
    df = s.to_frame()

    # 长度分组
    df[f"feat_siRNA_{name}_len21"] = (s.str.len() == 21)
    # 省略号标识以此类推构造特征
    ...

    # GC含量
    GC_frac = (s.str.count("G") + s.str.count("C"))/s.str.len()
    df[f"feat_siRNA_{name}_GC_in"] = (GC_frac >= 0.36) & (GC_frac <= 0.52)

    # 局部GC含量
    GC_frac1 = (s.str[1:7].str.count("G") + s.str[1:7].str.count("C"))/s.str[1:7].str.len()
    ...
    
    df[f"feat_siRNA_{name}_GC_in1"] = GC_frac1
    ...

    return df.iloc[:, 1:]

代码段中的省略号即需要学员自行琢磨、完善的,但由于个人实力有限,而且是第一次接触人工智能,不太会写,故没有在blog中展示。

除了这种思路,发布者还提出了一些如卷积神经网络(CNN)、集成学习和混合学习的策略,供学员参考。

因为我没接触过人工智能,所以本次夏令营的学习到了task3便什么也写不出来了,下面是这段时间的一些心得体会:

7.25我还在南京旅行时听说了Datawhale,并得知第三期刚刚开始,便进行了报名,task1和task2的直播也都有在bilibili参加,但是很遗憾,我听不懂。

不过在看到利用baseline实现的结果,能在评分系统里得到0.5038和0.7590的分数时,我也感到十分欣喜,一方面钦佩做baseline的大佬,另一方面在看到在人工智能的帮助下,人类能够更好地预测药物的治疗效果,从而改变世界,改变人类,让我感叹人工智能的伟大,和让我继续坚定学习人工智能的信念。

无论是机器学习、深度学习、nlp、图神经网络等方向,我都在这几天的时间里有了大致的了解和对未来前景的看好。

接下来我将从最基础的部分开始学习,高等数学、英语、配置环境,会尝试的读一些人工智能的论文,也会更多的接触一些人工智能的项目,提高自己的代码能力。

最后也希望Datawhale越来越好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值