本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第2章,第2.3节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。
2.3 数据的来源
你会发现用于机器学习项目的数据文件有多种可能来源。大多数情况下,你将从所效力的公司的领域专家那里得到数据集。给你提供数据集的可能是一个IT技术人员,可能是财务部门掌管公司Excel数据仓库的人,也可能是一个为公司管理社会媒体效果的咨询师。以下是其他的一些来源的列表。
网络上的机器学习数据资源库:一些广为人知的资源库包括加州大学欧文分校的机器学习资源库(archive.ics.uci.edu/ml)、政府的数据网站(例如data.gov),还有机器学习挑战赛的网站Kaggle (www.kaggle.com)。
从应用程序接口(API)中获得:社会媒体数据最常用的API是Twitter API,但是除此之外还有很多其他API。在谷歌的帮助下,你可以轻而易举地调查出是否有其他社会媒体平台提供R可用的API(通过特殊的包)。
抓取网页:几乎你访问的所有网站都能作为数据源使用,特别是那些有组织地显示数据内容的网站。这里唯一的提醒是,你需要一个可以在R中使用的URL,用于呈现包含数据的网页。2.9节会展示从网页中抓取数据的方法。
当你继续学习机器学习的原理时,你应该时刻注意寻找新的数据来源,并考虑:应该如何在机器学习的帮助下使用这个数据集提取知识,从而创造价值?