数据挖掘1：用于从Internet收集数据的数据挖掘工具和技术

本文链接：https://blog.csdn.net/LuoXianXion/article/details/88822267

“也许我们可以使用互联网上的数据？”

你有没说过这句话？在我最近的经历中，这句话越来越多了。毕竟，互联网有如此多令人难以置信的信息，只要它可以被下载和处理 - 只要想想它有多么有价值？

Web数据挖掘是一个不断发展的领域，可以提供强大的见解，帮助推动销售，了解客户，实现任务目标，并创造新的商机。

在这个博客系列中，我将讨论多个用例以及用于收集Internet数据以支持业务分析和智能的基本数据挖掘工具和技术。我将介绍如何：

在本系列的第一部分中，让我们高级地了解一些用于提取Web数据的业务用例，以及如何从“数据海洋”中为您的需求识别正确的数据。

自从我们公司成立以来，我们一直在帮助客户从互联网上提取数据。用例是无穷无尽的。这里有些例子：

详细了解您的客户

详细了解您的竞争对手

寻找新客户和销售目标

了解有关政府的更多信息

查找正在销售的商品和销售商品的人

使用外部内容补充您的内部产品

在外部语言和内部语言之间进行翻译

观察人们对你的看法

搜索技术涉及的一些示例客户项目包括：

如果您对这些用例有任何疑问或正在寻求实施您自己的Web数据挖掘计划，请与我们联系以进一步讨论。

对于我们大多数人来说，下载网络上的所有数据是不切实际的。因此，您必须首先确定要定位的数据源。当然，数据涵盖了非常广泛的质量，数量，适用性和可访问性。

- 这些是愿意向您出售数据的网站。

- 所有都有用于搜索，过滤和下载内容的API。他们的可用数据包括新闻报道（来自世界各地的大型和小型新闻机构，包括全球和本地），公司报告，年度报告，财务报告，全球专利，营销和市场报告，企业通信等。

- 行业编码：NAICS（北美工业分类系统）和SIC（标准行业分类）

- 工作编码 - 标准职业分类（SOC）

- 当然，您可以手动识别要爬网的爬网程序的网页（“种子URL”）。

- 或者，您可以从搜索引擎获取一组网站，例如Bing或Google自定义搜索（请注意，每天搜索的费用超过100次）。然后，可以使用网络爬虫抓取这些搜索引擎返回的网站。

- 最后，您还可以从其他数据集中获取种子URL，例如Wikidata，Twitter和Reddit。

一旦确定了需要数据的来源，下一步就是使用可用的数据挖掘工具和技术有效地获取内容。我将在我的博客系列的下一部分讨论这一步。继续阅读！