Spark机器学习2

2. 设计机器学习系统

  • 现代的大数据场景包含如下需求:
    • 必须能与系统的其他组件整和
    • 易于扩展且与其他组件相对独立
    • 支持高效完成所需类型的计算
    • 最好能同时支持批处理和实时处理
  • 机器学习系统商业用例
    • 个性化,是根据各种因素来改变用户体验和呈现给用户内容。推荐从根本上说是个性化的一种,指向用户呈现一个他们可能感兴趣的物品列表。
    • 目标营销和客户细分
    • 预测建模与分析

2.1 数据清理与转换

  • 大部分机器学习模型所处理的都是特征。特征通常是输入变量所对应的可用于模型的数值表示。
  • 绝大部分情况下,原始数据都需要经过预处理才能为模型所使用。预处理的情况可能包括以下几种:
    • 数据过滤
    • 处理数据缺失、不完整或有缺陷
    • 处理可能的异常、错误和异常值
    • 合并多个数据源
    • 数据汇总
  • 数据转换和特征提取时常见的挑战:
    • 将类别数据编码为对应的数值表示
    • 从文本数据提取有用信息
    • 处理图像或是音频数据
    • 数值数据常被转换为类别数据以减少某个变量的可能值的数目。例如将年龄分为几段
    • 对数值特征进行转换
    • 对特征进行正则化、标准化,以保证统一模型的不同输入变量的值域相同
    • 特征工程是对现有变量进行组合或转换以生成新特征的过程
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值