数据导论期末总结——by一宇

  1. 大数据的四个特征:
  1. 规模性:耗费海量规模的资源来存储和计算数据
  2. 高速性:增长速度快
  3. 多样性:数据的来源和形式多样:
     1. 数据形式多样:
   		1. 半结构化的关系数据、位置
   		2. 非结构化的文本、图片、音视频
     2. 信息来源:网络数据、企事业单位数据、政府数据、媒体数据
  4. 高价值型:价值总量大,但只是密度低,需要数据分析发现价值
  1. 大数据分析技术
  1. 分析技术:基于分布式框架的统计学习、机器学习、深度学习
  2. 数据存储:分布式文件系统HDFS、流数据引擎、分布式数据库、NoSql数据库
  3. 基础架构:集群、云平台IaaS、Hadoop、Spark计算矿机
  1. DataFrame对象与Series对象分别在什么时候用

  2. 常用的统计量有哪些

  1. 均值
  2. 方差
  3. 频率
  4. 分位数
  5. 众数
  1. 数据清洗有哪些工作
  1. 异常值
  2. 缺失值
     1. 数据滤除
     2. 数据填充
  3. 规整化
     1. 数据合并
     2. 数据排序
  4. 去除重复数据
  1. 数据统计分析
  1. 统计函数
  2. 相关性分析
  1. 数据可视化
  1. 离散数据:散点图、柱状图、饼图
  2. 连续数据:直方图、箱型图、折线图、半对数图
  3. 数据的区域或会计分布:统计地图、曲面图
  1. 人工智能的分类(网页)
  1. 回归分析

     - 常用方法:线性回归、逻辑回归、多项式回归、支持向量回归机(SVR)、回归树
     - 原理:预测性的建模分析技术。同构样本数据学习目标变量和自变量之间的因果关系,建立数学表示模型(基于新的自变量,次模型课预测相应的目标变量)
     - 模型评估:RMSE(均方根误差:有量纲)、R^2(模型决定系数:预测值和真实值之间的相关程度,无量纲)

  2. 分类分析
     - 常用方法:决策树、支持向量机、
     - 原理(有监督学习Supervised Learning):二分类、多分类

  3. 聚类分析
     - 常用方法:K-means(K近邻算法)、
     - 原理:聚类方法(Unsupervised Learning)
     - 模型评估:轮廓系数、兰德指数

  4. 神经网络和深度学习
     - 基础:
       - 神经元与感知器
       - 神经网络
  1. 文本数据处理
    1. 常见任务:
      1. 文本分类:垃圾邮件、短信分类,新闻分类,网页分类,情感分析
      2. 信息检索:搜索引擎(Google、百度、搜狗)
      3. 信息抽取:将文本包含的结构化、非结构haunt信息抽取处理,组织称类似表格的形式,只关心特定信息
        • 实体关系抽取:从文本中识别人、物、地点等实体,并抽取实体之间的语义关系。
      4. 自动问答:信息检索的一种高级形式,用准确、简洁的自然语言回答用户已文本形式提出的问题
      5. 机器翻译:将自然语言文本自动转换为另一种自然语言文本
        • Google翻译、有道翻译、百度翻译、必应翻译
      6. 自动摘要:从一份、多分文本中提取出部分文字,包含原文本中的重要信息,长度不超过或元少于元文本的一半
        • 自动报告生成、新闻标题生成、搜索结果预览
    2. 文本处理步骤:
      1. 文本采集
      2. 文本预处理
      3. 特征提取与特征选择
      4. 建模分析
    
    1. 中文文本处理
      1. 中文分词
      2. 词性标注
      3. 特征提取:词袋模型、TF-IDF模型
    
  2. 图形数据处理
  1. 数字图形:
      1. 类型:二值图形、灰度图像、RGB彩色图像
      2. 处理:图像变化、图像增强和复原、图像重建、图像编码、图像识别
      
  2. 卷积神经网络:
  1. 时序数据与语音处理
    1. 时序数据特征:
      1. 趋势性
      2. 循环性
      3. 季节性
      4. 波动性
    
    1. 时序数据特征提取:
      1. 基于统计方法的特征提取
      2. 基于模型的特征提取
      3. 基于变化的特征提取
      4. 基于分形理论的特征提取
    
    1. 时序数据分析方法
      1. 常用时序分析模型:
        1. 线性模型:自回归模型、滑动平均模型、自回归滑动平均模型、自回归积分滑动平均模型
        2. 非线性模型:核岭回归模型、神经网络模型
      
      1. 分析过程:
        1. 纯随机性检验
        2. 平稳检验
        3. ARIMA建模
        4. ARMA建模
        5. 预测
      
    2. 语言识别
      1. 语言数据采样
      2. 语言识别基本框架
      3. 语言识别中的时序数据处理:分帧、特征提取、语言识别
    
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值