机器学习

最近在学习有关于如何进行数据挖掘的工作,在公司呢,学这些肯定是为了面对工程项目,平台是3.6以上的python。以前一直用的是MATLAB,不得不说刚刚可以将就运行得了程序,然后就开始着手python,可能前路挺长。
我理解的机器学习的数据挖掘,是把数据从数据库当中读取出来,然后利用一些机器学习的方式来进行分析,具体的有支持向量机、神经网络以及深度学习等算法。以前经常做的事数据趋势的预测,具体地说就是根据数据同时序的其它变量的变化来对当前所需要的具体的数据比如浓度或一些别的测量起来精度不高又有很大迟滞的东西。对于变量,需要的辅助变量选取有许多种方式,主要就是从机理上面来分析所使用的辅助变量对主变量之间哪些有很密切的关系。从中发了一篇有关于气候的预测,其实是大同小异的,看看返回来的审稿意见吧。感觉数据预测方面大概也就做到这里了。现在需要做的就是用数据挖掘的算法来进行分类。之前需要做的是把辅助变量和主变量分开进行模型的输入输出映射,现在就是在求取这个映射,并且输入输出是同一个东西,只不过是把模型的历史数据进行抽取然后进行状态估计,然后将输入向量的估计值与输入向量进行比对,如果误差不在可接受范围那么就可以作为状态预警。
前段时间一直在尝试自己编程,感觉光光了解自己所要做的步骤还不够,很多小小的细节还是需要抠一下去。现在企业导师引导我开始脚踏实地的从一个个算法学下去,嗯,我学的慢,所以就记得清楚一些比较好。
首先,机器学习大类包括有监督学习以及无监督学习,有监督学习应该是我之前一直用的预测里面的分类方式吧,一方面,预测出的数值以及预测的误差反向传递,类似形成一个闭环系统,使得其误差达到设定值为止。一般样本是没问题的,但是预测起来就完全不是那回事。这就是干扰会比较多的缘故吧。无监督学习是不太容易进行标注,就是让机器帮助计算好各自之间的相似度,然后进行分类,我要学习的聚类就是属于一种无监督方式。
机器学习主要应用的分类,是需要让训练集和测试集进行训练完毕后的我分类。现阶段,根据训练集的特点确定训练的目标然后使其进行分类。聚类的意思是将训练集按照同类之间差异最小,异类之间差异尽可能大来作为标准。仔细想来还有点像支持向量机,就是拿一根线来分空间。
一个是K 均值算法,一个是k近邻算法,我打算这个周先学k近邻算法吧。
想想自己在按部就班的学习怎么编程了,还是挺期待的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值