-
关系型数据库
- SQL Server
- Oracle
- MySQL
- IBM DB2
-
flat文件和XML 数据集
以纯文本格式存储数据,每行有一个记录或一行,每个值由分隔符(如逗号、分号或制表符)分隔。CSV是最常见的flat文件格式之一,其中的值用逗号分隔。 -
API 和 Web 服务
api和Web服务通常侦听传入的请求,这些请求可以是来自用户的Web请求或来自应用程序的网络请求,并以纯文本、XML、HTML、JSON或媒体文件的形式返回数据。
eg. Twitter and Facebook apis
Stock Market APIs
Data Lookup and Validation APIs -
Web 抓取
Web抓取用于从非结构化源中提取相关数据,可以根据定义的参数从web页面下载特定的数据,可以从网站中提取文本、联系信息、图像、视频、产品项目等等。
主要用途:- 从零售商、制造商和电子商务网站收集产品细节以提供价格比较
- 通过公共数据源生成销售线索
- 从各种论坛和社区的帖子和作者中提取数据
- 为机器学习模型收集训练和测试数据集
工具:BeautifulSoup、Scrapy、Pandas、Selenium
-
数据流
用于金融交易的股票和市场行情
用于预测需求和供应链管理的零售交易流
用于威胁检测的监控和视频流
用于情感分析的社交媒体流
用于监控工业或农业机械的传感器数据流
用于监控网络性能和改进设计的网络点击流
用于重新预订和重新安排的实时航班事件
常见技术:Apache Kafka、Apache Spark Streaming、Apache Storm