- 大数据的四个特征:
1. 规模性:耗费海量规模的资源来存储和计算数据
2. 高速性:增长速度快
3. 多样性:数据的来源和形式多样:
1. 数据形式多样:
1. 半结构化的关系数据、位置
2. 非结构化的文本、图片、音视频
2. 信息来源:网络数据、企事业单位数据、政府数据、媒体数据
4. 高价值型:价值总量大,但只是密度低,需要数据分析发现价值
- 大数据分析技术
1. 分析技术:基于分布式框架的统计学习、机器学习、深度学习
2. 数据存储:分布式文件系统HDFS、流数据引擎、分布式数据库、NoSql数据库
3. 基础架构:集群、云平台IaaS、Hadoop、Spark计算矿机
-
DataFrame对象与Series对象分别在什么时候用
-
常用的统计量有哪些
1. 均值
2. 方差
3. 频率
4. 分位数
5. 众数
- 数据清洗有哪些工作
1. 异常值
2. 缺失值
1. 数据滤除
2. 数据填充
3. 规整化
1. 数据合并
2. 数据排序
4. 去除重复数据
- 数据统计分析
1. 统计函数
2. 相关性分析
- 数据可视化
1. 离散数据:散点图、柱状图、饼图
2. 连续数据:直方图、箱型图、折线图、半对数图
3. 数据的区域或会计分布:统计地图、曲面图
- 人工智能的分类(网页)
1. 回归分析
- 常用方法:线性回归、逻辑回归、多项式回归、支持向量回归机(SVR)、回归树
- 原理:预测性的建模分析技术。同构样本数据学习目标变量和自变量之间的因果关系,建立数学表示模型(基于新的自变量,次模型课预测相应的目标变量)
- 模型评估:RMSE(均方根误差:有量纲)、R^2(模型决定系数:预测值和真实值之间的相关程度,无量纲)
2. 分类分析
- 常用方法:决策树、支持向量机、
- 原理(有监督学习Supervised Learning):二分类、多分类
3. 聚类分析
- 常用方法:K-means(K近邻算法)、
- 原理:聚类方法(Unsupervised Learning)
- 模型评估:轮廓系数、兰德指数
4. 神经网络和深度学习
- 基础:
- 神经元与感知器
- 神经网络
- 文本数据处理
- 常见任务:
- 文本分类:垃圾邮件、短信分类,新闻分类,网页分类,情感分析
- 信息检索:搜索引擎(Google、百度、搜狗)
- 信息抽取:将文本包含的结构化、非结构haunt信息抽取处理,组织称类似表格的形式,只关心特定信息
- 实体关系抽取:从文本中识别人、物、地点等实体,并抽取实体之间的语义关系。
- 自动问答:信息检索的一种高级形式,用准确、简洁的自然语言回答用户已文本形式提出的问题
- 机器翻译:将自然语言文本自动转换为另一种自然语言文本
- Google翻译、有道翻译、百度翻译、必应翻译
- 自动摘要:从一份、多分文本中提取出部分文字,包含原文本中的重要信息,长度不超过或元少于元文本的一半
- 自动报告生成、新闻标题生成、搜索结果预览
- 文本处理步骤:
1. 文本采集 2. 文本预处理 3. 特征提取与特征选择 4. 建模分析
- 中文文本处理
1. 中文分词 2. 词性标注 3. 特征提取:词袋模型、TF-IDF模型
- 常见任务:
- 图形数据处理
1. 数字图形:
1. 类型:二值图形、灰度图像、RGB彩色图像
2. 处理:图像变化、图像增强和复原、图像重建、图像编码、图像识别
2. 卷积神经网络:
- 时序数据与语音处理
- 时序数据特征:
1. 趋势性 2. 循环性 3. 季节性 4. 波动性
- 时序数据特征提取:
1. 基于统计方法的特征提取 2. 基于模型的特征提取 3. 基于变化的特征提取 4. 基于分形理论的特征提取
- 时序数据分析方法
- 常用时序分析模型:
1. 线性模型:自回归模型、滑动平均模型、自回归滑动平均模型、自回归积分滑动平均模型 2. 非线性模型:核岭回归模型、神经网络模型
- 分析过程:
1. 纯随机性检验 2. 平稳检验 3. ARIMA建模 4. ARMA建模 5. 预测
- 语言识别
1. 语言数据采样 2. 语言识别基本框架 3. 语言识别中的时序数据处理:分帧、特征提取、语言识别