Datawhale AI夏令营 siRNA task3

最新推荐文章于 2024-09-15 15:29:29 发布

2301_80795207

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量453

点赞数 12

文章标签：人工智能

本文链接：https://blog.csdn.net/2301_80795207/article/details/140887826

版权

#Datawhale AI夏令营

task3的练习是通过发布者给出的各种上分思路，优化代码，从而获得更高分数。

发布者先是提供了一些生物学角度新特征的科学前沿论文，来提供新的思路，给大家说明现在的siRNA反义链与target gene的匹配程度，以及匹配位置，从而对预测目标产生影响。

发布者再次使用lightgbm来实现这个思路，例如：

def siRNA_feat_builder3(s: pd.Series, anti: bool = False):
    name = "anti" if anti else "sense"
    df = s.to_frame()

    # 长度分组
    df[f"feat_siRNA_{name}_len21"] = (s.str.len() == 21)
    # 省略号标识以此类推构造特征
    ...

    # GC含量
    GC_frac = (s.str.count("G") + s.str.count("C"))/s.str.len()
    df[f"feat_siRNA_{name}_GC_in"] = (GC_frac >= 0.36) & (GC_frac <= 0.52)

    # 局部GC含量
    GC_frac1 = (s.str[1:7].str.count("G") + s.str[1:7].str.count("C"))/s.str[1:7].str.len()
    ...
    
    df[f"feat_siRNA_{name}_GC_in1"] = GC_frac1
    ...

    return df.iloc[:, 1:]

代码段中的省略号即需要学员自行琢磨、完善的，但由于个人实力有限，而且是第一次接触人工智能，不太会写，故没有在blog中展示。

除了这种思路，发布者还提出了一些如卷积神经网络（CNN）、集成学习和混合学习的策略，供学员参考。

因为我没接触过人工智能，所以本次夏令营的学习到了task3便什么也写不出来了，下面是这段时间的一些心得体会：

7.25我还在南京旅行时听说了Datawhale，并得知第三期刚刚开始，便进行了报名，task1和task2的直播也都有在bilibili参加，但是很遗憾，我听不懂。

不过在看到利用baseline实现的结果，能在评分系统里得到0.5038和0.7590的分数时，我也感到十分欣喜，一方面钦佩做baseline的大佬，另一方面在看到在人工智能的帮助下，人类能够更好地预测药物的治疗效果，从而改变世界，改变人类，让我感叹人工智能的伟大，和让我继续坚定学习人工智能的信念。

无论是机器学习、深度学习、nlp、图神经网络等方向，我都在这几天的时间里有了大致的了解和对未来前景的看好。

接下来我将从最基础的部分开始学习，高等数学、英语、配置环境，会尝试的读一些人工智能的论文，也会更多的接触一些人工智能的项目，提高自己的代码能力。

最后也希望Datawhale越来越好。