1.1数据的分类
- 结构化数据:例如表格、SQL数据表等;
- 非结构化数据:例如图形图像、PDF、world文档、视频、音频等;
- 半结构化数据:例如JSON、CSV文件、XML等;
现在大部分数据属于非结构化数据,只有少部分数据属于半结构化数据与结构化数据,数据的结构化与非结构化没有明确的区分边界。
1.2数据科学的定义
数据科学是一个专注于从原始数据中提取知识和见解的跨学科领域,主要应用到数学、统计学、计算机科学等学科。它的基本内容包括:确定与理解需要解决的问题、数据收集、数据读取、数据储存、数据读取、数据格式转换、数据可视化、数据分析与建模、模型评估、部署使用等方面。
1.3进行数据科学工作需要的知识与技能
表格引于:https://blog.csdn.net/zw0Pi8G5C1x/article/details/90684121