机器学习之混合类型数据的使用

在机器学习中,经常会碰到不同类型的数据(numeric, categorical, Continuous and Text data)混合使用的情况,而机器学习算法一般只接受数值型的数据。比如说,虽然神经网络很强大,但是也没办法直接处理类别型的变量,需要经过如one-hot编码的预处理之后才能放进网络去训练。因此,必须对这些数据进行预处理。但是,不同的处理方式,可能对模型的效果产生重要的影响。

Understanding Categorical Data

类别型数据,主要有两种:Nominal(名称)、Ordinal(顺序)

名称型类别数据,在该属性的值之间没有排序的概念,如天气、城市等。

这里写图片描述

顺序分类特征,它的值的大小是有一定意义的(如衬衫尺寸、鞋子大小、学历高低等)

这里写图片描述

Feature Engineering on Categorical Data

通常,特征工程中的标准工作流都涉及到将这些类别值经某种形式的转换,转化为数字标签的形式,然后在这些值上应用一些编码方案。

Transforming Nominal Attributes

数据来源:kaggle videogames

这里写图片描述

游戏类别字段Genre和Publisher、Platform都是名称属性。

查看游戏类别有多少类

genres = np.unique(vg_df['Genre'])
genres
Output
------
array(['Action', 'Adventure', 'Fighting', 'Misc', 'Platform',  
       'Puzzle', 'Racing', 'Role-Playing', 'Shooter', 'Simula
  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
机器学习是一种人工智能技术,它通过利用统计学和计算机科学的方法,让计算机能够从数据中学习和提取模式,以便能够自动进行决策和预测。机器学习算法是机器学习的核心工具,下面是一些机器学习算法的知识点。 1. 监督学习算法:监督学习是机器学习中最常见的算法类型,其中训练数据包括输入特征和相应的输出标签。一些监督学习算法包括决策树、支持向量机、朴素贝叶斯和神经网络等。 2. 无监督学习算法:与监督学习不同,无监督学习算法不需要标签,它主要用于数据聚类、降维和异常检测等任务。一些无监督学习算法包括K均值聚类、主成分分析和高斯混合模型等。 3. 强化学习算法:强化学习算法是一种通过与环境交互来学习如何选择动作以使累计奖励最大化的算法。它包括Q学习和深度强化学习等。 4. 集成学习算法:集成学习通过将多个基本学习器的结果进行整合,以获得更好的预测性能。常见的集成学习算法有随机森林和梯度提升决策树等。 5. 深度学习算法:深度学习是一种基于神经网络的机器学习算法,具有多层的隐藏神经元。它在图片和语音识别、自然语言处理等领域取得了很大的成功,如卷积神经网络和循环神经网络。 6. 过拟合和欠拟合:过拟合和欠拟合是机器学习中常见的问题。过拟合指模型过度学习训练数据,并无法很好地泛化到新数据,而欠拟合则指模型不能够准确地拟合训练数据。解决这些问题的方法包括交叉验证、正则化和增加训练数据等。 这些是机器学习算法的一些基本知识点,通过深入学习和实践,我们能够更好地理解和应用机器学习算法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值