数据源维度、爬虫工具、企业中台

1. 当我们思考数据源的时候,都有哪些维度,如果你想要使用爬虫抓取数据,都有哪些工具?


答:

  • 大体上有四类数据源:开放数据源、爬虫抓取的数据、传感器的数据和日志采集的数据

    1. 开放数据源: 一般是针对行业的数据库,比如企业和高校一般会开放一些自己的数据,用于让从业人员和爱好者基于这些数据打比赛和进行算法比较,好提高公司的效益和发展算法。政府也会公布教育、人口信息等数据、针对特定的历史事件比如新冠疫情一些研究小组和政府也会公开各地区病患情况。这些数据都是可以直接抓取甚至可以直接下载。
    2. 爬虫抓取:一般针对特定的网站或APP,如果我们想要抓取指定的网站数据,比如购物网站上的购物评价等,就需要我们做特定的爬虫抓取。
    3. 传感器数据:这类数据采集的几乎是物理信息,比如图像、视频、或者某个物体的速度、热度、压强等。如今嵌入式技术发展的很火热,在一些无人机,送货机器人甚至手机电视等电子产品上都会集成一些压测、距离检测、热敏、平衡等各种各样的传感器通过ZigBee等技术传到数据库中,服务器再实时获取数据进行处理送到客户端。
    4. 日志采集:个是统计用户的操作。我们可以在前端进行埋点,在后端进行脚本收集、统计,来分析网站的访问情况,以及使用瓶颈等。
  • 爬虫的工具

    1. 自己写爬虫代码
      最常用的是可以用scrapy框架,是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
      另外pyspdier, beautiful soup都是不错的框架。
    2. 现成的爬虫工具
      1. 八爪鱼
        有免费的版本,免费的采集模板实际上就是内容采集规则,包括了电商类、生活服务类、社交媒体类和论坛类的网站都可以采集,用起来非常方便。当然你也可以自己来自定义任务。
        有付费版本,可以交给八爪鱼的云端进行采集。八爪鱼一共有 5000 台服务器,通过云端多节点并发采集,采集速度远远超过本地采集。此外还可以自动切换多个 IP,避免 IP 被封,影响采集。
      2. 集搜客
        这个工具的特点是完全可视化操作,无需编程。整个采集过程也是所见即所得,抓取结果信息、错误信息等都反应在软件中。相比于八爪鱼来说,集搜客没有流程的概念,用户只需要关注抓取什么数据,而流程细节完全交给集搜客来处理。但是集搜客的缺点是没有云采集功能,所有爬虫都是在用户自己电脑上跑的。
      3. 火车采集器
        比较老牌,不仅可以做抓取工具,也可以做数据清洗、数据分析、数据挖掘和可视化等工作。数据源适用于绝大部分的网页,网页中能看到的内容都可以通过采集规则进行抓取。

2. 企业的数据源来自多个维度,请思考什么是企业的数据中台,你是如何理解一方数据,二方数据,三方数据? **

  • 数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
    数据中台通过整合公司开发工具、打通全域数据、让数据持续为业务赋能,实现数据平台化、数据服务化与数据价值化。

  • 一方数据、二方数据、三方数据

    • 一方数据:企业直接从受众(客户、网站访问者和社交媒体关注者)那收集的数据。“第一方”指的是收集第一手数据用于重新定位的一方,因为数据直接来自你的客户,是最有价值且免费得到的,有成本效益,也相对容易收集和管理,并且隐私担忧最小。
    • 二方数据:是你自己没收集到的第一方数据,这个数据对你来说是二手的。这个数据一般直接来自于收集它的公司,所以是高整合化的质量高更加精准的数据,但它依赖于和合作公司得达成协议。
    • 三方数据:是你从外部来源购买的数据。是花钱才能得到的。属于第三方数据供应商,如数据平台,运营商等。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值