数据挖掘1:用于从Internet收集数据的数据挖掘工具和技术

 

目录

用例从Web中提取数据

Search Technologies的Web数据挖掘和分析项目

如何识别Web上的有用数据源


 

 

“也许我们可以使用互联网上的数据?”

你有没说过这句话?在我最近的经历中,这句话越来越多了。毕竟,互联网有如此多令人难以置信的信息,只要它可以被下载和处理 - 只要想想它有多么有价值?

Web数据挖掘是一个不断发展的领域,可以提供强大的见解,帮助推动销售,了解客户,实现任务目标,并创造新的商机。

在这个博客系列中,我将讨论多个用例以及用于收集Internet数据以支持业务分析和智能的基本数据挖掘工具和技术。我将介绍如何:

在本系列的第一部分中,让我们高级地了解一些用于提取Web数据的业务用例,以及如何从“数据海洋”中为您的需求识别正确的数据。


用例从Web中提取数据

自从我们公司成立以来,我们一直在帮助客户从互联网上提取数据。用例是无穷无尽的。这里有些例子:

详细了解您的客户

  • 您客户公司的首席执行官在说什么?
  • 您的客户的财务状况和主要举措是什么?
  • 您的客户最近在哪些推文和发帖?

详细了解您的竞争对手

  • 你的竞争对手在做什么?
  • 他们卖什么?
  • 他们在做什么新事物吗?独特?

寻找新客户和销售目标

  • 世界上发生了什么?
  • 你应该在哪里定位你的销售?

了解有关政府的更多信息

  • 哪些规则和规定会影响贵公司?
  • 政府考虑做什么可能会影响您的业务?
  • 有哪些可用的补助金和商机?

查找正在销售的商品和销售商品的人

  • 比较价格
  • 寻找新的商机
  • 寻找非法活动和不应出售的东西

使用外部内容补充您的内部产品

  • 因此,用户可以“留在”您的产品,而无需咨询外部数据库

在外部语言和内部语言之间进行翻译

  • 通常,社区使用的单词和短语与公司内部使用的单词和短语不同
  • 咨询外部资源可以帮助在外部语言和内部语言之间进行“翻译”

观察人们对你的看法

  • 在病毒传播之前识别并缓解潜在的客户问题
  • 跟踪广告系列的效果 
  • 跟踪产品和品牌活动和情绪

Search Technologies的Web数据挖掘和分析项目

搜索技术涉及的一些示例客户项目包括:

  • 对于美国国家业务开发小组,浏览新闻文章以确定哪些公司计划扩展或重新安置
  • 使用10K,股东大会和年度报告来了解关键的公司计划 - 为行业协会和前五大咨询公司
  • 搜索销售非法宠物的人 - 为农业部门执法机构
  • 收集采矿作业和采矿文章,以进行垂直聚焦的网络搜索 - 对于采矿出版商而言
  • 阅读政府规则和法规 - 适用于行业游说组织
  • 通读演讲候选人的演讲和公开声明 - 为一个政党
  • 下载大学课程所需的教科书,以了解他们的学生需要哪些书籍 - 一本教科书租赁公司
  • 下载建筑规则和法规 - 适用于大型建筑公司
  • 为会议支持公司确定并跟踪具有位置和组织的会议

如果您对这些用例有任何疑问或正在寻求实施您自己的Web数据挖掘计划,请与我们联系以进一步讨论。 

如何识别Web上的有用数据源

对于我们大多数人来说,下载 网络上的所有数据是不切实际的。因此,您必须首先确定要定位的数据源。当然,数据涵盖了非常广泛的质量,数量,适用性和可访问性。

 

 

  • 策划的公共资源:  维基百科(提供方便的XML转储文件 - 请参阅使用维基百科的搜索技术的Azure搜索演示),维基数据和维基词典
  • 社交媒体消息来源:  Twitter,Facebook,Reddit,Instagram,Pinterest,Google +
  • 政府数据: 美国政府出版局美国法典Data.gov
  • 医疗和健康: MedlineMESHCPT和ICD代码
  • 公司内容:  网站可以通过网络抓取工具进行抓取(维基数据是查找网站地址的一个很好的“起点”),还有AnnualReports.comEDGAR
  • 第三方聚合商: 汤森路透FactivaNewsCredLexisNexis 

- 这些是愿意向您出售数据的网站。

- 所有都有用于搜索,过滤和下载内容的API。他们的可用数据包括新闻报道(来自世界各地的大型和小型新闻机构,包括全球和本地),公司报告,年度报告,财务报告,全球专利,营销和市场报告,企业通信等。

  • 利基网站:  Stack Exchange(例如Stack Overflow,它有数据转储API),Github等
  • 编码:  这些通常是内容分析的良好起点。

- 行业编码:NAICS(北美工业分类系统)和SIC(标准行业分类)

- 工作编码 - 标准职业分类(SOC)

  • 万维网:

- 当然,您可以手动识别要爬网的爬网程序的网页(“种子URL”)。

- 或者,您可以从搜索引擎获取一组网站,例如BingGoogle自定义搜索(请注意,每天搜索的费用超过100次)。然后,可以使用网络爬虫抓取这些搜索引擎返回的网站。

- 最后,您还可以从其他数据集中获取种子URL,例如Wikidata,Twitter和Reddit。

一旦确定了需要数据的来源,下一步就是使用可用的数据挖掘工具和技术有效地获取内容。我将在我的博客系列的下一部分讨论这一步。继续阅读!

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SZ laoluo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值