#Datawhale AI夏令营
task3的练习是通过发布者给出的各种上分思路,优化代码,从而获得更高分数。
发布者先是提供了一些生物学角度新特征的科学前沿论文,来提供新的思路,给大家说明现在的siRNA反义链与target gene的匹配程度,以及匹配位置,从而对预测目标产生影响。
发布者再次使用lightgbm来实现这个思路,例如:
def siRNA_feat_builder3(s: pd.Series, anti: bool = False):
name = "anti" if anti else "sense"
df = s.to_frame()
# 长度分组
df[f"feat_siRNA_{name}_len21"] = (s.str.len() == 21)
# 省略号标识以此类推构造特征
...
# GC含量
GC_frac = (s.str.count("G") + s.str.count("C"))/s.str.len()
df[f"feat_siRNA_{name}_GC_in"] = (GC_frac >= 0.36) & (GC_frac <= 0.52)
# 局部GC含量
GC_frac1 = (s.str[1:7].str.count("G") + s.str[1:7].str.count("C"))/s.str[1:7].str.len()
...
df[f"feat_siRNA_{name}_GC_in1"] = GC_frac1
...
return df.iloc[:, 1:]
代码段中的省略号即需要学员自行琢磨、完善的,但由于个人实力有限,而且是第一次接触人工智能,不太会写,故没有在blog中展示。
除了这种思路,发布者还提出了一些如卷积神经网络(CNN)、集成学习和混合学习的策略,供学员参考。
因为我没接触过人工智能,所以本次夏令营的学习到了task3便什么也写不出来了,下面是这段时间的一些心得体会:
7.25我还在南京旅行时听说了Datawhale,并得知第三期刚刚开始,便进行了报名,task1和task2的直播也都有在bilibili参加,但是很遗憾,我听不懂。
不过在看到利用baseline实现的结果,能在评分系统里得到0.5038和0.7590的分数时,我也感到十分欣喜,一方面钦佩做baseline的大佬,另一方面在看到在人工智能的帮助下,人类能够更好地预测药物的治疗效果,从而改变世界,改变人类,让我感叹人工智能的伟大,和让我继续坚定学习人工智能的信念。
无论是机器学习、深度学习、nlp、图神经网络等方向,我都在这几天的时间里有了大致的了解和对未来前景的看好。
接下来我将从最基础的部分开始学习,高等数学、英语、配置环境,会尝试的读一些人工智能的论文,也会更多的接触一些人工智能的项目,提高自己的代码能力。
最后也希望Datawhale越来越好。