理论学习:
因为此前没有上过梁上松老师的数据挖掘课,对如何开始入手、算法的选择等都没有思路,加之本周投入的时间不长, 为此第一周主要进行的是理论方面的学习。意在对数据挖掘比赛基本流程有个大致的认知,为下周的实践做准备。
-
观看了一两个比赛提供的学习资料视频、在公众号Datawhale上阅读了陈成龙博士的比赛经验分享,对数据挖掘比赛流程有了粗略的认知。因为没有实践到代码上,还只是浮于表面。
-
收集了梁上松老师的课件,购买了周志华老师的《机器学习》,基础薄弱感觉有点难啃。计划在国庆假期结合实践进行学习。
-
回顾了python的一些库函数和用法,之前只在计算机网络等小项目上用过python,原有的知识量对于数据挖掘来说显得不太够用。
心得:
- 分析数据环节需选择合适的特征,周一开会时说到泰坦尼克号生存预测就有人选择从名字进而判断身份、职业等等进而进行预测。不知道机器能不能使用某种算法,通过带有结果的样本集,自行选择合适的特征(数据分析我感觉也就是机器学习方面的应用)。如果可以,应该也只限于关联的特征较少的情况,毕竟关联特征越多复杂度也越高。希望下周的学习中能学到这方面的解答。
- 算法、模型没有说一定是哪个最好,重要的是多去尝试,积累经验。