目录
Search Technologies的Web数据挖掘和分析项目
“也许我们可以使用互联网上的数据?”
你有没说过这句话?在我最近的经历中,这句话越来越多了。毕竟,互联网有如此多令人难以置信的信息,只要它可以被下载和处理 - 只要想想它有多么有价值?
Web数据挖掘是一个不断发展的领域,可以提供强大的见解,帮助推动销售,了解客户,实现任务目标,并创造新的商机。
在这个博客系列中,我将讨论多个用例以及用于收集Internet数据以支持业务分析和智能的基本数据挖掘工具和技术。我将介绍如何:
在本系列的第一部分中,让我们高级地了解一些用于提取Web数据的业务用例,以及如何从“数据海洋”中为您的需求识别正确的数据。
用例从Web中提取数据
自从我们公司成立以来,我们一直在帮助客户从互联网上提取数据。用例是无穷无尽的。这里有些例子:
详细了解您的客户
- 您客户公司的首席执行官在说什么?
- 您的客户的财务状况和主要举措是什么?
- 您的客户最近在哪些推文和发帖?
详细了解您的竞争对手
- 你的竞争对手在做什么?
- 他们卖什么?
- 他们在做什么新事物吗?独特?
寻找新客户和销售目标
- 世界上发生了什么?
- 你应该在哪里定位你的销售?
了解有关政府的更多信息
- 哪些规则和规定会影响贵公司?
- 政府考虑做什么可能会影响您的业务?
- 有哪些可用的补助金和商机?
查找正在销售的商品和销售商品的人
- 比较价格
- 寻找新的商机
- 寻找非法活动和不应出售的东西
使用外部内容补充您的内部产品
- 因此,用户可以“留在”您的产品,而无需咨询外部数据库
在外部语言和内部语言之间进行翻译
- 通常,社区使用的单词和短语与公司内部使用的单词和短语不同
- 咨询外部资源可以帮助在外部语言和内部语言之间进行“翻译”
观察人们对你的看法
- 在病毒传播之前识别并缓解潜在的客户问题
- 跟踪广告系列的效果
- 跟踪产品和品牌活动和情绪
Search Technologies的Web数据挖掘和分析项目
搜索技术涉及的一些示例客户项目包括:
- 对于美国国家业务开发小组,浏览新闻文章以确定哪些公司计划扩展或重新安置
- 使用10K,股东大会和年度报告来了解关键的公司计划 - 为行业协会和前五大咨询公司
- 搜索销售非法宠物的人 - 为农业部门执法机构
- 收集采矿作业和采矿文章,以进行垂直聚焦的网络搜索 - 对于采矿出版商而言
- 阅读政府规则和法规 - 适用于行业游说组织
- 通读演讲候选人的演讲和公开声明 - 为一个政党
- 下载大学课程所需的教科书,以了解他们的学生需要哪些书籍 - 一本教科书租赁公司
- 下载建筑规则和法规 - 适用于大型建筑公司
- 为会议支持公司确定并跟踪具有位置和组织的会议
如果您对这些用例有任何疑问或正在寻求实施您自己的Web数据挖掘计划,请与我们联系以进一步讨论。
如何识别Web上的有用数据源
对于我们大多数人来说,下载 网络上的所有数据是不切实际的。因此,您必须首先确定要定位的数据源。当然,数据涵盖了非常广泛的质量,数量,适用性和可访问性。
- 策划的公共资源: 维基百科(提供方便的XML转储文件 - 请参阅使用维基百科的搜索技术的Azure搜索演示),维基数据和维基词典
- 社交媒体消息来源: Twitter,Facebook,Reddit,Instagram,Pinterest,Google +
- 政府数据: 美国政府出版局,美国法典,Data.gov
- 医疗和健康: Medline,MESH,CPT和ICD代码
- 公司内容: 网站可以通过网络抓取工具进行抓取(维基数据是查找网站地址的一个很好的“起点”),还有AnnualReports.com和EDGAR
- 第三方聚合商: 汤森路透,Factiva,NewsCred和LexisNexis
- 这些是愿意向您出售数据的网站。
- 所有都有用于搜索,过滤和下载内容的API。他们的可用数据包括新闻报道(来自世界各地的大型和小型新闻机构,包括全球和本地),公司报告,年度报告,财务报告,全球专利,营销和市场报告,企业通信等。
- 利基网站: Stack Exchange(例如Stack Overflow,它有数据转储和API),Github等
- 编码: 这些通常是内容分析的良好起点。
- 行业编码:NAICS(北美工业分类系统)和SIC(标准行业分类)
- 工作编码 - 标准职业分类(SOC)
- 万维网:
- 当然,您可以手动识别要爬网的爬网程序的网页(“种子URL”)。
- 或者,您可以从搜索引擎获取一组网站,例如Bing或Google自定义搜索(请注意,每天搜索的费用超过100次)。然后,可以使用网络爬虫抓取这些搜索引擎返回的网站。
- 最后,您还可以从其他数据集中获取种子URL,例如Wikidata,Twitter和Reddit。
一旦确定了需要数据的来源,下一步就是使用可用的数据挖掘工具和技术有效地获取内容。我将在我的博客系列的下一部分讨论这一步。继续阅读!