国科大-刘莹-数据挖掘-第一次作业后总结-纯干货

最新推荐文章于 2023-11-29 16:45:20 发布

匿名小弱鸡

最新推荐文章于 2023-11-29 16:45:20 发布

阅读量1.8k

点赞数 5

分类专栏：数据挖掘国科大课程课程作业文章标签：数据挖掘

本文链接：https://blog.csdn.net/admin9621/article/details/102735865

版权

国科大课程同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

课程作业

3 篇文章 0 订阅

订阅专栏

数据挖掘

0 篇文章 0 订阅

订阅专栏

刚刚搞完第一次作业，觉得很心累，身为一个学渣，在坑里游荡了太久，以至于写完作业激动不已，想分享一下经历。有两个内容，一是遇到的坑，二是在解决这个问题中的思考历程。我认为这个思考历程的记录是十分有必要的，可以思考一下在这个思考过程中，哪些是可以避免的，问题抽象起来是很相通的，在面临以后的问题的时候，就不用再一步一步的摸索。

1、安装clementine

刘老师会给一个安装包，是8.0版本的，一定要注意，在运行“输入许可证”这个文件要用管理员权限运行，否则怎样输入对的许可证号都不行。

我的坑：

疯狂百度正确的输入许可证，浪费了大量时间->疯狂的百度如何破解8.0版本，但是难度太大->尝试从别的来源下载8.0版本的，解压各种失败少文件->转向安装12.0版本，百度云下载速度贼慢

反思：

教学群里面有大神提过权限这个问题，还是不要一个人悄咪咪摸索，可以问一下；

最后也是群里大佬给我提供了12.0的安装包；

在有时候出问题的时候，去想着尝试一下“管理员权限”的办法

浪费了很多不必要的探索实践

2、手写神经网络bp传播

终于弄懂了batch size 和epoch，所以明白了最后反向的时候老师要求的一个样本是什么意思。

终于弄懂了神经网络传播中各个权重的那一系列计算怎么来的，这时候要感谢向世明老师，正好模式识别课讲到了这里，真的是深入浅出。

反思：

知识太浮于表面，之前学习过bp，觉得思想很简单，但是对于误差什么的具体机理计算公式就看一看就过了，并没有去思考为什么是这样，背后又有什么含义。所以真正到刘莹老师这里，要求拿具体的数字计算的时候就茫然无措，这一次是在向老师的课程上，真正明白了这些。

多想一层，做什么都多想一层，想的更深就会比别人走的更远

3、学习clementine的使用

（听说别的学校这个是当作一门课来学？？？刘老师是演示了一遍，毕竟我们是研究生了，hhh）

直接说坑，

(1)上来就自己瞎搞软件，不看教程，不看说明，不看实例模型，上来一眼一抹黑的瞎搞，（狗头）从瞎试怎么读取数据，到瞎试到怎么引入模型，然后瞎试怎么对测试数据进行测试，啊啊啊啊！真的是耽误了！大量的时间！

(我想自己默写三遍，看教程，看教程，看教程。)

(2)自己瞎搞搞不出来，我就去百度了，我百度了很久，各种看网上的“学习clementine的使用”的ppt，重点是没有我所需要的内容“如何对测试数据进行测试”，基本上我看到的全部，都是讲到生成模型就完了（可能是我太笨，没有办法自我延伸式学习hhh）

(3)看到b站有教学视频，但是我嫌视频浪费时间一直没有看！！！没有看！！！然后我实在百度不动了，就去看视频了，简直是！茅塞顿开，顿时解决。【原来我的问题出在，把测试数据和生成的模型连接上了，其实是对的，但是应该再外接一个表，在那个表里点击执行，然后会生成可看的数据表！直接看模型是什么都看不到的】【所以，啊啊啊啊啊！其实我就是差最后一步，而我折腾了那么久】

(4)这个我要重点提一下，就是读取刘老师给的数据的时候一直读不上，不管我怎么调整分隔符，都不行，然后我就很绝望，一直在做重复性工作，一遍一遍点执行。后来过了很久很久，我突然想到读不上会不会是编码的问题，果不其然，文件是utf-16而软件时utf-8

反思：

(1)不要瞎搞，看看教程，看看模型，要合理的利用别人已经总结好的东西，要站在巨人的肩膀上看待问题，自己试的过程试一试就好了，但是不要想着凭借自己试一试就能全部搞懂。

(2)B站是个好地方，我以后想去投稿，嘻嘻

(3)多用各种方法，百度，教学视频，但是不要做重复工作，我点了很多次同样一个ppt，阅读着同样啥都没有的同一个文件，看了好半天，没用啊，已经证明没用的东西是没用的几率就是很大啊

(4)这就牵扯到，除了管理权限运行完外的另一个想法了，编码问题之前确实遇到过很多次坑，苦啊

但是能遇到问题要合理的排查，比如说数据读取不上，不要先想着骂软件制作的程序员小哥哥，二是想肯定是读取过程设置出问题或者是数据文件本身有问题。

祝以后国科大学数据挖掘的学弟学妹们好运。