2018/10/24
注意这里是几个,我在做自己的实践的时候,想到的几个问题。
1、特别重要的一个:进行一个步骤之后,就不知道下面一个步骤该干什么了。
特别是,我利用第三方的库执行完预测,然后得到一个数值,然后我就不知道该干什么了。
这个困惑,其实整个实践过程中一直存在。
(这个应该是属于对这个机器学习的流程不够清楚。)
很多知识点都是散的,另外,这些理论的知识,应该怎么样才能转化为实际中的经验。
2、要不要数据的归一化什么,做这个操作的出发点是什么,我应该带着什么样的问题才会想到这样的步骤。
3、如何甄别一个模型到底是好是坏,当然我可以从交叉验证的方式来做,但是这样的说服性还是不够。
因为我在实践过程中,发现利用过一个模型,但是结果不好,我应该,或者说能够得到什么样的结论呢。
4、在模型的选择过程中,一个模型自然很好,但是我是不是能得到一些他是否是过拟合的信息。
答:从《统计学习导论》中看到,如果一个方法他的训练误差非常小,但是预测误差非常大大的话,就是过拟合了。
不知道这个理论如何跟交叉验证这个东西给结合起来,现在在看(2018/10/25)
我现在的疑惑点在于,具体在进行模型评估的时候, 就是利用数据来进行评估吗。
而且,怎么说呢,就是我第一个时间点就得到了一个比较好的模型,我心里打颤。
(其实本质上,这个还是模型评估的问题)
(而且,因为看了这么多的东西,感觉自己迷糊了。没有找到问题的本质。)
387
(387, 12)
precision recall f1-score support
1.0 1.00 1.00 1.00 92
2.0 1.00 1.00 1.00 163
3.0 1.00 1.00 1.00 54
micro avg 1.00 1.00 1.00 309
macro avg 1.00 1.00 1.00 309
weighted avg 1.00 1.00 1.00 309
1.0
precision recall f1-score support
1.0 0.59 0.65 0.62 20
2.0 0.91 0.95 0.93 44
3.0 0.50 0.36 0.42 14
micro avg 0.77 0.77 0.77 78
macro avg 0.67 0.65 0.66 78
weighted avg 0.76 0.77 0.76 78
0.7692307692307693
上面这个数据,第一个表格是测试的训练集,而后面这个表格,测试的是测试集,从这个上面可以看出来,好像是有点过拟合。
5、对数据的评估是不是有一些教条的方式。就是说,我算法好的,但是由于我提供的训练集本身就不好,才导致的后面说算法或者模型不好。
6、究竟这个variance-bias trade-off到底跟哪些因素相关。
从书中看,是跟你模型的复杂度有关,但后面有提到,这个跟选择的验证方法有关。
这个东西,在实际的操作过程中,是不是有指标可以体现出来。
7、突然感觉出来,就是我应该对每个步骤都足够熟悉,这样就要求对机器学习有深入的理解。另外,我还希望对每个步骤他的作用也有一定的深入理解。
这项内容远比我学会一个算法重要的多。