0开篇-介绍

创作灵感

最近又开始写Python,换新机器了,加上回顾硬盘上的一些资料,发现当时用在态势上的一些机器学习内容一直没有收尾,2019年10月研发中心成立中断了机器学习产品的研发,加上后来疫情,这几年荒废了。有空归纳下,希望有机会能用上。

基础介绍

语言、框架及环境:

当然是Python。优点:好用的数学函数库例如numpy,绘图工具matplotlib,框架或库sklearn,keras和有名的TensorFlow。缺点:性能。硬件cpu最好是intel的,原来有一次使用联想AMD本跑模型始终有问题,同样的使用我自己的intel本就没问题,不知道现在还有没有这种CPU问题。显卡不强求,学习的话已算法为主,测试数据不多的话cpu跑也没问题,就是cpu一直100%啥也干不了,最好有闲置机跑。有显卡建议也是台式机显卡,我用神舟笔记本差点把GTX960M干冒烟了。

数学基础和相关资料:

高数,线性代数,概率论和数理统计,基本都是大学本科的数学知识,知道各种概念就OK,用于理解各种算法,毕竟都是调包调参数,不用深入到框架原理。

相关资料可以参考各个大佬(吴恩达,周志华,李宏毅等)的书,和现在b站很多讲解视频。

机器学习开发算法步骤:

1.数据收集(Extract)。因为需要有样本数据,学习的话我会从kaggle之类的网站下载,实际项目会有特定格式的数据,我原来使用的都是安全设备上提取的数据。

2.数据格式化和分析(Transform)。数据要整理成标准格式,标准数据格式可以融合算法,方便操作。同时对于值需要转化或填充,异常值可能还需要进行必要的展示和分析,判断是否有保留价值。

3.算法训练。机器学习从这一步才真正开始。和下一步一起组成机器学习算法的核心。训练就是通过一定的算法将数据变为知识或信息或者模型。这里需要区别的是监督学习和无监督学习。简单理解,分类和回归是监督学习,监督就是必须知道预测什么,知道目标变量的分类信息,算法就是做到如何分类,常用算法有k-邻近算法、线性回归、朴素贝叶斯、决策树等。相对的无监督学习没有确定的目标,没有类别信息。常用算法有k-均值、最大期望算法、DBSCAN等。

4.测试算法。使用前一步输出的知识、信息或者模型,使用测试数据,评测检验算法的成功率。如果不满意算法的输出结果,可以回到第一步重新运算。如果发现准备的数据有问题,也可以回到第一步重新收集数据。

5.实际使用。利用验证算法过的算法执行实际操作。

工具

推荐使用anaconda,集成JupyterLab Notebook  Spyder等工具,配合vscode使用。

算法

按照整理的顺序写。

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值