大数据技术复习--大数据分析

机器学习

在这里插入图片描述

机器学习与深度学习最大的区别在于是否手动提取特征

  1. 数据预处理
    • 去噪、缺失属性处理
    • 数据规范化
      所谓数据规范化就是将数据按比例缩放,使之落入一个小的特定区间
      方法:
      • 最小-最大规范化
        x ′ = x − m i n m a x − m i n ⋅ ( n e w _ m a x − n e w _ m i n ) + n e w _ m i n x' = \dfrac{x - min}{max - min} \cdot (new\_max - new\_min) + new\_min x=maxminxmin(new_maxnew_min)+new_min
      • Z分数规范化,是数据标准统一化,提高数据可比性
        x ′ = x − μ σ x' = \dfrac{x - \mu}{\sigma} x=σxμ

在这里插入图片描述
在这里插入图片描述
2. 度量方法:

  • Jaccard相似系数, 它是通过计算样本的交集和并集之间差异的相似度算法
    J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ = ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ − ∣ A ∩ B ∣ J(A, B) = \dfrac{|A \cap B|}{|A \cup B|} = \dfrac{|A \cap B|}{|A| + |B| - |A \cap B|} J(A,B)=ABAB=A+BABAB
    在集合A和集合B中,两者的交集越多,则表示两者相似度越高
    Jaccard的相似性与集合的顺序无关,仅与在集合中是否出现有关,即为二值数据,不是0则是1,是一种简单的相似性方法,实质是集合交集与并集的比值

  • 余弦相似度,是通过计算两个向量的夹角余弦值来评估他们的相似性
    对于二维空间的两个向量来说
    c o s θ = x 1 x 2 + y 1 y 2 x 1 2 + y 1 2 × x 2 2 + y 2 2 cos \theta = \dfrac{x_1 x_2 + y_1 y_2}{\sqrt{x_1^2 + y_1^2} \times \sqrt{x_2^2 + y_2^2}} cosθ=x12+y12 ×x22+y22 x1x2+y1y2
    对于任意两个n维样本向量,两个的余弦公式为
    c o s θ = ∑ i = 1 n ( x i × y i ) ∑ i = 1 n x i 2 × ∑ i = 1 n y i 2 cos \theta = \dfrac{\sum \limits^n_{i = 1}(x_i \times y_i)}{\sqrt{\sum\limits^n_{i= 1} x_i^2}\times \sqrt{\sum\limits^n_{i = 1}y_i^2}} cosθ=i=1nxi2 ×i=1nyi2 i=1n(xi×yi)

总结为
对应相乘相加 各自平方和开根号之和 \dfrac{对应相乘相加}{各自平方和开根号之和} 各自平方和开根号之和对应相乘相加

在这里插入图片描述
在这里插入图片描述

  1. 特征工程
    特征工程是利用领域知识从原始数据中提取用于后续机器学习及数据挖掘应用的特征(向量)的过程
    • 特征表示
      • one-hot编码,one-hot向量为有且只有一个元素为1,其余元素都为0的向量
      • 语义编码
      • 相关系数
    • 特征选择
      • 按搜索策略划分特征选择算法
      • 评价函数
    • 特征提取
      • PCA无监督线性降维方法
      • LDA线性判别分析,监督线性降维
      • ICA独立分量分析

特征提取:作为机器学习中一个前处理步骤,在降维、去除不相关和冗余的数据,增能够增加机器学习效率和效果,是大规模机器学习中必不可少的流程
特征提取与特征选择有很大的不同:两者都是数据降维的手段,前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征,后者是将这些特征应用到机器学习

在这里插入图片描述

  • 11
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ˇasushiro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值