数据从何而来?

这篇文章将介绍收集或接收数据的五大途径。无论是帮助优化人工智能驱动的机器,还是简单地预测未来的消费需求。

数据正以越来越快的速度推动世界前进。它被用来帮助机器学习,优化人工智能驱动的计算机,并以难以置信的准确性预测未来的结果。我们的现代仍然是由数据推动的持续技术突破所定义的。原始数据是新技术的指导柱,有助于使新的发展与现实和日常功能保持一致。

数据让我们更好地控制我们的生活。无论是为公共政策提供信息,微调自动驾驶车辆,预测我们何时需要订购补充洗手液,还是在社交媒体上为我们提供相关的内容建议,数据都可以帮助回答我们关于生活的问题,往往是在我们还没有意识到自己有这些问题的时候。

由于其作为一种商业智能的力量,关于消费者的数据对几乎每家公司都是无价的。对于利用机器学习的产品的科技公司来说,数据尤其有价值。原始数据可以帮助提高由机器学习驱动的软件的能力,因为它通过输入的原始数据 "学习 "到了现实生活中的东西。

与人类不同,机器学习工具不需要学习休息,因此,人工智能计算机似乎不可避免地成为许多未来科学发现的来源。一个雄心勃勃的科技创业公司如何才能最好地获得大量的数据并保持控制?

在这篇文章中,我们将介绍收集或接收数据的五大方法,无论是帮助优化人工智能驱动的机器,还是简单地预测未来的消费需求。

原始数据从何而来?

数据存在于我们周围,但为一个特定的项目收集和组织数据有时会让人不知所措。以下是原始数据的五大常见来源。

1. 公开可用的数据

我们将从最明显的数据来源开始--公共数据,它可以在政府记录或其他公共数据库中找到,如Facebook、LinkedIn或Google。公共数据是任何公开的信息,如报纸故事、城市人口普查信息或选民登记名单。随着我们的社会继续将更多的技术融入到日常生活中,收集到的关于人们的数据只会继续增加。

例如,最近的一项研究表明,通过美国人口普查局收集的信息可以准确地预测一个社区的人口变化,有可能消除劳动密集型的挨家挨户人口普查的需要。虽然这是一个无害的例子,但收集公共数据的其他技术改进,如面部识别技术,仍然是有争议的数据收集模式,因此很少使用。

无论你是作为情感分析的一部分在推特上搜索,还是使用当地的人口统计数据来建立一个初步的数据模型,公共数据都可以成为一个有用的基础来建立。虽然它是你的研究或项目的一个很好的起点,但它也使你的数据模型更容易被复制。统计显示,81%的零售商大量收集数据以帮助他们的营销和发展。

使用公共数据可以使你的模型更加通用,但它可以带来一定程度的透明度,为你的项目增色。例如,比特币等加密货币是在公共区块链上交易的,该区块链没有权限,每个人都可以访问,但交易仍然非常安全。

2. 来自使用你的软件的数据

现在你有了一个基于公开数据的模型,是时候用更具体的数据来微调它了。

用于机器学习或开发人工智能程序的最佳数据是针对你的程序或用户类型的数据。例如,自动驾驶汽车不断从司机那里收集数据,以提高其自主驾驶的能力。对话式人工智能聊天机器人依靠数据输入和用户行为来增强其回复请求和准确回答问题的能力。

这是一种极其相关的收集数据的方式,因为它是高度指定的。例如,如果你正在为一家从事金融工作的公司开发一个人工智能搜索数据库,你可以使用公开的金融数据来开始数据库的基础建设。然而,为了真正磨练数据库,使其为财务部门氛围中出现的问题和查询类型而定制,该软件将需要依靠与用户的互动来学习。这就是为什么人工智能驱动的软件一开始可能很笨拙或不相关,但随着频繁使用,会变得更加准确和高效。

3. 人工输入

另一种收集数据的方法来自于人工输入。在这种方法中,训练有素的操作员或工程师在收集数据的同时进行程序的设计或应用。在系统运行时对其进行人工监督和控制,开发者可以在收集真实世界数据的同时为他们的新模型制作原型。一个系统开始时可能70%由操作者控制,30%是自主的,但一旦收集到足够的数据,并且人工智能得到加强,该系统可能会发展到95%的自主,因为它 "学会 "了如何行事。

例如,自动驾驶汽车在成为完全自主之前要经过五个阶段。这些汽车开始时具有最低限度的自动驾驶功能--例如检测到前面的汽车并停车的能力,直线行驶以保持在一个车道内,或保持一定的速度。这些功能是通过摄像头和传感器来实现的,它们在收集有关驾驶行为、邻里关系和常见路障的数据方面也发挥着重要作用。

4. 数据收集

一种比较老式的数据收集形式,"蛮力 "数据采集仍然是一种有效的方法。这是指有目的的收集数据,而不是从公开的数据中挑选,或者作为你产品测试或开发的一部分。例如,一个城市的人口普查员可能会挨家挨户核实居住在那里的公民的信息。同样地,一辆测量车可以负责在一个社区周围行驶,收集图像,以创建一个高清地图。

在这两种情况下,主要目标是收集数据。寻找模式和使用数据是后来的事--没有人类或人工智能的干扰,使这些数据变得有意义。虽然这种方法费时费力,但这种来之不易的数据是竞争对手难以复制的。

5. 购买数据集

公司获得高质量数据的一个越来越流行的方法是简单地从一个著名的公司购买数据集。当购买数据用于你的模型时,你无法控制你收到的数据的类型或质量,而且总有可能是过时的或与你的项目无关的。

然而,这是一个快速和简单的方法,可以获得你需要的数据,开始训练你的程序。用这种方法获得数据的公司应该研究他们所购买的公司的声誉,数据的来源,以及它是如何被收集的,以确认它与他们的目的有关,然后再购买。

结语

数据就在我们身边,并将继续推动我们社会的技术发展。特别是随着人工智能和机器学习将我们推进到一个令人兴奋的新时代,我们将看到科技公司对高质量和实时数据的需求越来越大。

如果你正在为自己的项目寻找数据,最近改版的KDnuggets策划的数据集(用于数据科学、机器学习、人工智能和分析)是一个不错的开始。

参考文章:https://www.kdnuggets.com/2022/08/data-come.html

推荐书单

《Python数据可视化》

购买链接: https://item.jd.com/12670073.html

《Python数据可视化》详细阐述了与Python数据可视化相关的基本解决方案,主要包括数据可视化和数据探索的重要性、绘图知识、Matplotlib、利用Seaborn简化可视化操作、绘制地理空间数据、基于Bokeh的交互式操作等内容。此外,该书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。

《Python数据可视化》适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

《精通Tableau 2019》

购买链接:https://item.jd.com/12604811.html

《精通Tableau 2019》详细阐述了与Tableau2019.x相关的基本解决方案,主要包括Tableau数据操控、Tableau数据提取、TableauDesktop高级计算、Tableau桌面高级过滤机制、创建仪表板、利用Tableau讲述故事、Tableau可视化、Tableau高级可视化、Tableau大数据应用、Tableau预测分析、Tableau高级预测分析、部署TableauServer、Tableau故障诊断、利用TableauPrep分析数据、基于Tableau的ETL好的实践方案等内容。

此外,《精通Tableau 2019》还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。

《精通Tableau 2019》适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

精彩回顾

可视化案例研究——以智利总统选举为例

【案例】如何使用Flask构建天气预报 

手把手教你创建简单的Python Flask

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值