数据导论期末总结——by一宇

  1. 大数据的四个特征:
  1. 规模性:耗费海量规模的资源来存储和计算数据
  2. 高速性:增长速度快
  3. 多样性:数据的来源和形式多样:
     1. 数据形式多样:
   		1. 半结构化的关系数据、位置
   		2. 非结构化的文本、图片、音视频
     2. 信息来源:网络数据、企事业单位数据、政府数据、媒体数据
  4. 高价值型:价值总量大,但只是密度低,需要数据分析发现价值
  1. 大数据分析技术
  1. 分析技术:基于分布式框架的统计学习、机器学习、深度学习
  2. 数据存储:分布式文件系统HDFS、流数据引擎、分布式数据库、NoSql数据库
  3. 基础架构:集群、云平台IaaS、Hadoop、Spark计算矿机
  1. DataFrame对象与Series对象分别在什么时候用

  2. 常用的统计量有哪些

  1. 均值
  2. 方差
  3. 频率
  4. 分位数
  5. 众数
  1. 数据清洗有哪些工作
  1. 异常值
  2. 缺失值
     1. 数据滤除
     2. 数据填充
  3. 规整化
     1. 数据合并
     2. 数据排序
  4. 去除重复数据
  1. 数据统计分析
  1. 统计函数
  2. 相关性分析
  1. 数据可视化
  1. 离散数据:散点图、柱状图、饼图
  2. 连续数据:直方图、箱型图、折线图、半对数图
  3. 数据的区域或会计分布:统计地图、曲面图
  1. 人工智能的分类(网页)
  1. 回归分析

     - 常用方法:线性回归、逻辑回归、多项式回归、支持向量回归机(SVR)、回归树
     - 原理:预测性的建模分析技术。同构样本数据学习目标变量和自变量之间的因果关系,建立数学表示模型(基于新的自变量,次模型课预测相应的目标变量)
     - 模型评估:RMSE(均方根误差:有量纲)、R^2(模型决定系数:预测值和真实值之间的相关程度,无量纲)

  2. 分类分析
     - 常用方法:决策树、支持向量机、
     - 原理(有监督学习Supervised Learning):二分类、多分类

  3. 聚类分析
     - 常用方法:K-means(K近邻算法)、
     - 原理:聚类方法(Unsupervised Learning)
     - 模型评估:轮廓系数、兰德指数

  4. 神经网络和深度学习
     - 基础:
       - 神经元与感知器
       - 神经网络
  1. 文本数据处理
    1. 常见任务:
      1. 文本分类:垃圾邮件、短信分类,新闻分类,网页分类,情感分析
      2. 信息检索:搜索引擎(Google、百度、搜狗)
      3. 信息抽取:将文本包含的结构化、非结构haunt信息抽取处理,组织称类似表格的形式,只关心特定信息
        • 实体关系抽取:从文本中识别人、物、地点等实体,并抽取实体之间的语义关系。
      4. 自动问答:信息检索的一种高级形式,用准确、简洁的自然语言回答用户已文本形式提出的问题
      5. 机器翻译:将自然语言文本自动转换为另一种自然语言文本
        • Google翻译、有道翻译、百度翻译、必应翻译
      6. 自动摘要:从一份、多分文本中提取出部分文字,包含原文本中的重要信息,长度不超过或元少于元文本的一半
        • 自动报告生成、新闻标题生成、搜索结果预览
    2. 文本处理步骤:
      1. 文本采集
      2. 文本预处理
      3. 特征提取与特征选择
      4. 建模分析
    
    1. 中文文本处理
      1. 中文分词
      2. 词性标注
      3. 特征提取:词袋模型、TF-IDF模型
    
  2. 图形数据处理
  1. 数字图形:
      1. 类型:二值图形、灰度图像、RGB彩色图像
      2. 处理:图像变化、图像增强和复原、图像重建、图像编码、图像识别
      
  2. 卷积神经网络:
  1. 时序数据与语音处理
    1. 时序数据特征:
      1. 趋势性
      2. 循环性
      3. 季节性
      4. 波动性
    
    1. 时序数据特征提取:
      1. 基于统计方法的特征提取
      2. 基于模型的特征提取
      3. 基于变化的特征提取
      4. 基于分形理论的特征提取
    
    1. 时序数据分析方法
      1. 常用时序分析模型:
        1. 线性模型:自回归模型、滑动平均模型、自回归滑动平均模型、自回归积分滑动平均模型
        2. 非线性模型:核岭回归模型、神经网络模型
      
      1. 分析过程:
        1. 纯随机性检验
        2. 平稳检验
        3. ARIMA建模
        4. ARMA建模
        5. 预测
      
    2. 语言识别
      1. 语言数据采样
      2. 语言识别基本框架
      3. 语言识别中的时序数据处理:分帧、特征提取、语言识别
    
数据可视化是数据科学领域中重要的一环,它通过图表、图形和其他可视化工具将数据呈现出来,以便能够更好地理解和分析数据。 首先,数据可视化可以帮助我们更好地理解数据。通过将数据可视化成图表或图像,我们可以直观地看到数据的分布、趋势和模式。这些可视化结果可以让我们更容易地发现数据中的有意义的信息,并且帮助我们深入理解数据所传达的含义。 其次,数据可视化还可以帮助我们发现数据中的异常值。通过对数据进行可视化,我们可以快速地发现与众不同的数据点或异常模式。这些异常值可能是我们的数据收集过程中的错误,或者是数据背后隐藏的重要信息。通过识别和处理这些异常值,我们可以提高数据质量和分析的准确性。 此外,数据可视化也有助于数据的传达和沟通。在现实世界中,不同背景的人对于数据的理解能力和统计分析的能力有所差异。数据可视化可以帮助我们以更直观的方式向其他人传达数据,使得他们更容易理解和接受数据的分析结果。通过合适的图表和图形,我们可以有效地解释数据背后的趋势和关系,并与其他人进行更有意义的讨论和决策。 综上所述,数据可视化在数据科学中起着重要的作用。它不仅帮助我们更好地理解和分析数据,发现异常值,还能够向他人有效传达和沟通数据。因此,在进行数据科学工作时,数据可视化是必不可少的一项技能和工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值