机器学习与计算机视觉(数据集的选择)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】

 

    作为学术研究而言,同学们更关注那些最新最酷的算法,反而对于数据集这种事情不太在乎。一来,如果要发表论文,一般数据集都是公开的,别人用什么数据,你也用什么数据,基本上没有选择的余地;二来,除了少部分竞赛之外,一般测试用的数据都不会很大,这些数据对于写文章、做实验来说都足够了,没有必要自己重新做一套。相同的数据,反而更容易凸显不同算法之间的差别。

 

    作为企业,那就不一样了。算法只是占了很小的一部分,大部分工程师的工作都是在找数据、提炼数据、分析数据。对于某些行业来说,一些图片数据甚至是没有办法获得的。比如说,公安部门的人脸数据基本上是不可能给你的,可是你如果想做人脸识别这一块,没有大规模的数据做支撑,是很难保证较高的识别率的。一旦有了很好的数据,提高了识别率之后,你又可以在运行中获得更多的用户数据,这是典型的鸡生蛋、蛋生鸡问题。除了极少数顶级的公司,大部分公司使用的算法都是差不多的,很难说谁比谁更优秀什么的,差别就在于谁掌握了更多的数据,谁就拥有了更大的话语权。

 

    说了这么多,那么用户一般从哪获得数据呢?

 

1、知名的数据集

    比如说iris、mnist数据集,一般大家都知道,也都可以下载得到

 

2、互联网公司提供的数据

    比如阿里天池大数据

 

3、比赛提供的数据

    比如kaggle

 

4、一些库自带数据,比如sklearn

 

Python 2.7.6 (default, Oct 26 2016, 20:30:19) 
[GCC 4.8.4] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> x = iris.data
>>> y = iris.target


5、各学校机器学习团队、模式识别团队、计算机视觉团队、语言识别团队、nlp团队自己的数据

 

6、从各网站用爬虫去获取的数据

 

7、用户注册的数据、从用户的日志检索出的数据等等

 

    作为学习而言,不管哪种方法,只要有合适的数据就可以。但是作为应用,特别是那些可以帮助我们提高效率的工程应用来说,如何获取数据、怎样检索出特征数据或许才是他们真正考虑的事情。数据、结果稳定性、成本,这才是企业界ml队伍关心的事情。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

嵌入式-老费

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值