常见数据源

  • 关系型数据库

    • SQL Server
    • Oracle
    • MySQL
    • IBM DB2
  • flat文件和XML 数据集
    以纯文本格式存储数据,每行有一个记录或一行,每个值由分隔符(如逗号、分号或制表符)分隔。CSV是最常见的flat文件格式之一,其中的值用逗号分隔。

  • API 和 Web 服务
    api和Web服务通常侦听传入的请求,这些请求可以是来自用户的Web请求或来自应用程序的网络请求,并以纯文本、XML、HTML、JSON或媒体文件的形式返回数据。
    eg. Twitter and Facebook apis
    Stock Market APIs
    Data Lookup and Validation APIs

  • Web 抓取
    Web抓取用于从非结构化源中提取相关数据,可以根据定义的参数从web页面下载特定的数据,可以从网站中提取文本、联系信息、图像、视频、产品项目等等。
    主要用途:

    • 从零售商、制造商和电子商务网站收集产品细节以提供价格比较
    • 通过公共数据源生成销售线索
    • 从各种论坛和社区的帖子和作者中提取数据
    • 为机器学习模型收集训练和测试数据集

    工具:BeautifulSoup、Scrapy、Pandas、Selenium

  • 数据流
    用于金融交易的股票和市场行情
    用于预测需求和供应链管理的零售交易流
    用于威胁检测的监控和视频流
    用于情感分析的社交媒体流
    用于监控工业或农业机械的传感器数据流
    用于监控网络性能和改进设计的网络点击流
    用于重新预订和重新安排的实时航班事件
    常见技术:Apache Kafka、Apache Spark Streaming、Apache Storm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值