这周学习工作处理的事情蛮多的
1、生均成本分析 —— 教学数据模型已经搭建完成,这里面也许可以做些选课推荐的数据处理,基于手上已经有的各个维度的学生、课程、教师的分布关联关系,可以和论文课题智慧教育结合起来,一个想法,先放着,可能是今后的创新灵感(捂脸ing)。
2、开始钻研论文里面涉及到的算法,因为之前都是粗略读论文,里面牵扯到的很多概念都只是处在知道有这么个名词上面,实在读不深,所以这周读论文,结合论文学习算法。
3、搭建深度学习环境(真的是坑太多了,只是想跑个代码而已,搭环境老是出错,头发都要抓掉了==),目前只是处在安装好了Pycharm专业版,连上了服务器,但是Tensorflow-GPU还未装好,听实验室同学说她们搞环境也花了好久,这些坑肯定是要躺的(哭唧唧),这边看到有大佬用Pycharm+docker配置环境可以做到环境打包,一次配置,后人皆可使用,看的心痒痒,下周好好尝试下。不得不说,内功确实很重要啊!
4、在图书馆get到一本书《数据科学家养成手册》,从数据发展的角度出发,谈古论今,旁征博引,既有人文历史,也有数学推理运算,把枯燥的数据结合历史讲的让人看的津津有味,摘录这周看到的好句:
能说出“有问题”是第一个层次——定性;
能说出“问题在哪里”是第二个层次——定位;
能说出”问题的大小或数量“是第三个层次——定量。
期待我的研究生生涯,最后交出的答卷是讲明白且解决了第三个层次。
最后再记录几个小概念。
降维:是将特征高度相关的维度降低到一个比较低的维度上,而不是省略特征,省略特征可能会导致错误的结果
梯度下降:线性回归中用来找假设公式中的参数的,直观理解就是猜大了让变小,猜小了让变大,用的是梯度下降的方法(其实就是导数),让整个变化的过程以最快的速度进行。
神经网络的形象化理解,很好的解释:https://zhuanlan.zhihu.com/p/59678480 不要被复杂的神经网络图所迷惑,只是借助神经网络来形象化地描述整个计算过程,实际上就是用个函数来拟合所有的数据,神经网络层次越高,那么拟合数据的函数级数越大,线条越弯曲。
机器学习实际上就是选择一种数学模型来对数据进行分类预测,如线性回归是用直线这个数学模型来划分数据,逻辑回归是用Sigmoid这个函数来输出一个概率值(区间0-1),决策树是想用二叉树来对数据进行分类,首先二叉树本身就是一个数学模型。但是模型好坏得要一个评判的标准呀,那这个标准我们用什么来衡量呢,一般称这个为目标函数/损失函数,一般评估指标是长这样 ,这个评估指标描述的是各个点和模型之间距离的平均值,还有其他评估的指标,像逻辑回归和决策树就是用概率来进行评估参数好不好,这个概率,就是当前所设定的参数把输入数据所属分类预测对的概率。
信息熵:1948年香农提出,对信息的量化度量,是香农从热力学中借用过来的,热力学中的热熵表示分子状态混乱程度的物理量,用来描述信源的不确定度,第一次用数学语言阐明概率与信息冗余度的关系,简单来说,就是一个集合里面,各部分比例越均衡越混乱,各部分越两级分化越不混乱(举个例子,袋子里面全是梨子,就一个苹果,那我随便拿一个,人家猜我拿的是啥,那肯定猜梨嘛,如果一半梨子,一半苹果,就不好猜了,猜中全靠人品,因此越两级分化,得到的信息反而越多越准确,)。
学习一个算法,要搞清楚实际的原理。然后要来思考,我做什么可以优化这个算法
传统的推荐技术:基于内容的和协同过滤。
卷积神经网络CNN:https://www.bilibili.com/video/BV1sb411P7pQ/?spm_id_from=333.788.videocard.1卷积:用卷积盒提取特征,池化:缩小图片,只提取关键信息;修正线性单元,全连接。卷积神经网络处理可以转化为图像的信息 ,处理过程为输入->卷积层->全连接->输出