[人工智能]机器学习实践中数据和模型的选择

原创 2017年05月13日 14:42:26

前言

人工智能这一领域还是非常值得去做的,前言技术,今后将越来越多的智能化领域将运用这一技术,互联网领域将进行重新一次洗牌.

搞算法的朋友们,大家都知道,最近特别火的机器学习和深度学习,尤其是深度学习,现在是相当的火爆,不管是正在学的还是即将入坑的朋友,搞算法离不开两样基本东西:

 1.数据
 2.模型

不管是机器学习,还是深度学习那么我们在实践中所遇到的困惑有哪些呢?

困惑1:数据从哪里来?
困惑2:数据该如何处理?
困惑3:模型该如何去建模?
困惑4:实践结果不理想,如何去调参?

等等一系列的困惑…….在这对上面的困惑给大家建议建议,有没说到的或说的不对希望大家补充和包容.

困惑1:数据从哪里来?

大家都知道,能够玩得起人工智能的公司,公司都有至少5年以上的相关积累,一个刚成立1-2年公司,几乎不太可能,数据量太少.所以…..
所以数据来源一般都是公司后台数据库中的数据或者是大量的日志文件信息等.然后你获得仅仅是原始数据,然而这些数据可能”并没有什么卵用”!,是不是很失望!

困惑2:数据该如何处理?

只有好数据,才会有好模型,进而才会有好的实践结果,那么如何把一波原始杂乱无序的数据变成好数据呢,这里要提到一个术语叫:数据清洗.

互联网数据基本上需要进行分析的都以日志数据为主,不管是点击数据还是浏览数据,都是海量的日志型数据,处理日志,如何清理无用数据,如何清除机器流量,去掉恶意点击,去掉重复数据,这个就没什么套路了,八仙过海,各显神通,能过去就能沉淀下有用的数据,过不去你怎么调模型也得不到想要的结果。

然而数据清洗,这是一个长期的,需要坚持不懈的,枯燥无趣的,技巧性很强的劳动。那么如何进行数据清洗呢?
据很多人的经验数据清洗的步骤,这里总结一下:
这里写图片描述
所有,数据清理是个体力活,同样也是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。

困惑3:模型该如何去选

现在问题来了,碰到一个场景,那你应该用哪个模型?基本上现在的机器学习,都是个分类的问题,不管广告中的是点击率预估还是文本分类,垃圾邮件分析,图像识别,其实说到底都是个分类的问题,所以上面说的那些个模型也基本都是分类模型,那么实际情况中用什么模型呢?

我们看到各种书上介绍朴素贝叶斯的时候必然会提到垃圾邮件分类,仿佛这是垃圾邮件分类的标准模型,但为什么不用逻辑回归呢?这里你可以说是经验,因为大家都用贝叶斯方法来做垃圾邮件过滤,所以他的效果可能更好。但是在实际工程应用中可不是每个都有经验的,遇到一个新问题,用哪个模型呢?这个是你学习完各种高大上模型,推导完各种公式以后,还是很难解决的问题。就说垃圾邮件过滤这个,你觉得QQ邮箱的垃圾邮件过滤,Gmail的垃圾邮件过滤,是用的朴素贝叶斯?

即便通过牛逼的理论知识,选择了合适的模型,跑起了数据,得到了结果,但是结果并不令人满意,这时,你还能做什么呢?呵呵呵呵,调参数吧。

所以说,光从模型上来说,就牵扯到具体问题具体分析的情况,这还只是第一步,因为你无论理论多么强,无论怎么分析,确定一个合适的模型以后,希望能够通过这个模型有较好的产出,其实吧,并没有什么卵用。后面还有一座数据的大山需要你去攀登。
所以数据处理很重要,数据处理好了,几个相近的模型最终得出的实验效果是差不多的,如何通过目标来选出一个模型,最终得出一个相对较好好的效果?
这里给大家总结几点:

1.靠经验
2.前提数据清洗,只要是数据清洗的好,在相近的算法得出的效果差不多

困惑4:实践结果不理想,如何去调参?

调参下一节详细讲解,请关注

版权声明:本文为博主原创文章,未经博主允许不得转载。

【人工智能】数据挖掘领域的十大经典算法

来自:csdn博客 数据挖掘十大经典算法 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出...
  • chenglibin1988
  • chenglibin1988
  • 2013年03月13日 11:05
  • 6998

人工智能之机器学习常见算法

摘要之前一直对机器学习很感兴趣,一直没时间去研究,今天刚好是周末,有时间去各大技术论坛看看,刚好看到一篇关于机器学习不错的文章,在这里就分享给大家了. 机器学习无疑是当前数据分析领域的一个热点内...
  • BaiHuaXiu123
  • BaiHuaXiu123
  • 2016年05月22日 15:47
  • 42957

人工智能、机器学习和数据挖掘三者之间的关系

人工智能:         人工智能(ArtificialIntelligence),英文缩写为AI。它是关于知识的科学(知识的表示、知识的获取以及知识的应用)。         人工智能(学科)...
  • jdbc
  • jdbc
  • 2015年03月24日 23:10
  • 9927

概率机器学习和人工智能(概率机器学习和人工intelligence_Nature2015)

本次调查论文是从Zoubin Ghahramani,这是发表在Nature在2015年关于概率机器学习和人工智能。 网址:http://blog.csdn.net/shanglianlm/art...
  • tsb831211
  • tsb831211
  • 2016年07月25日 18:55
  • 2801

在现实实践中会遇到的机器学习算法总结

在理解了我们需要解决的机器学习问题之后,我们要思考需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。 机器学习领域...
  • zjxiaolu
  • zjxiaolu
  • 2015年03月31日 00:05
  • 336

你实践中学到的最重要的机器学习经验是什么?

在知乎看到「你实践中学到的最重要的机器学习经验是什么?」这个问题,相信经验对于许多刚准备入门机器学习的同学来说是必不可少的,因此AI研习社选取了3个精华回答给到大家~如果你也有好经验,欢迎在本篇文章留...
  • Y0W1as5eg37urFdS
  • Y0W1as5eg37urFdS
  • 2017年12月05日 00:00
  • 35

[机器学习]机器学习实践中应避免的七种常见错误

作者:Cheng-Tao Chu‘s LinkedIn在机器学习领域,每个给定的建模问题都存在几十种解法,每个模型又有难以简单判定是否合理的不同假设。在这种情况下,大多数从业人员倾向于挑选他们熟悉的...
  • BaiHuaXiu123
  • BaiHuaXiu123
  • 2017年04月08日 07:23
  • 1596

python技术web数据分析机器学习人工智能

  • 2017年12月30日 18:08
  • 215B
  • 下载

麦子学院人工智能教程-Python数据分析和机器学习培训视频下载

  • 2017年12月29日 01:45
  • 63B
  • 下载

大数据时代的算法 机器学习、人工智能及其典型实例

  • 2017年12月21日 23:48
  • 34.12MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[人工智能]机器学习实践中数据和模型的选择
举报原因:
原因补充:

(最多只允许输入30个字)