使用matlab实现大数据的处理与分析
使用MATLAB实现大数据的处理与分析
马文辉 高级应用工程师,MathWorks 中国
1
什么是大数据?
“Big data is a term for data sets that are so large or
complex that traditional data processing
applications are inadequate to deal with them.”
Wikipedia
2
大数据会带来哪些挑战?
传统的工具和方法不能有效工作
– 数据获取和处理变得越来越困难;
– 需要学习使用新的工具和编程方法;
– 需要重写算法和更改代码,以应对数据的规模和复杂程度的增加;
计算结果的质量会受到影响
– 例如,很多情况下不得不使用子集进行计算;
3
大数据工作流程
数据访问
数据规模超过内存限制
计算扩展
数据处理与分析
扩展到大数据系统,例如
使用传统工具或新的大数据工具 Hadoop
4
大数据所需解决方案
轻松快速的访问数据,无论它们存储在哪里;
小数据集上实现原型算法开发;
数据处理和分析的大数据集扩展;
使用与数据集规模大小无关的MATLAB语法;
5
多数据源
• 业务数据与工程数据 MATLAB数据存储
DatabaseDatastore
KeyValueDatastore
Repositories
• Databases (SQL)
• NoSQL ImageDatastore
• Hadoop
File I/O datastore TallDatastore
• Text
• Spreadsheet
• Image