背景:一个有点C++基础对NLP还没有概念的大二学生
学习目标
- 理解赛题背景与赛题数据
- 完成赛题报名和数据下载,理解赛题的解题思路
赛题数据
匿名处理???
赛题数据为新闻文本,并按照字符级别进行匿名处理。
匿名处理的数据我还是第一次接触这个概念,网上搜索了下这个概念,懂了一点点意思(慢慢了解)
评测标准
计算公式本来一点都看不懂的,但是看了大佬的理解NLP训练1-赛题理解与评价标准有了一点点的认识
Precision,就是要精准,不愿意做错;Recall的意思是 想到、记得 ,就是要记得所有的细节,就算是错了也没关系,只要覆盖了更多的正确的细节,那“记忆率”就越高,这就是召回率——Reall。
F1-Socre从数学上,它被定义为精确率和召回率的调和平均数。从公式中我们可以看到,F1的大小,同时受 Precision和 Recall的影响,即 短板效应 ,所以 F1 Score比直接平均的结果考虑更平衡,更能说明一个模型的好坏。
解题思路
目前脑子里还没有什么解题的思路,看github 的四种解题思路都还没有那个概念。所以目前的计划就是往下看,把pandas的环境先配置好。
以后慢慢填坑