【机器学习300问】54、如何找到有效的组合特征?

一、为什么需要去寻找有效的组合特征?

        因为并不是所有的特征组合都会意义,都能带来价值。

        例如在房价预测场景中,卧室数量和浴室数量的比值有意义,但房屋面积与建造年份相组合作为新的组合特征,可能就没有实际含义,因为这两者数值上的简单相加并不能体现任何与房价相关的实质性信息。

        因此,构建组合特征的过程往往需要领域知识指导,同时结合实验验证,确保生成的新特征能够帮助模型更好地理解和捕捉数据背后的潜在规律。那有什么办法能帮助不具备领域专业知识的程序员们找到有效的组合特征吗?

二、怎么样才能有效的找到组合特征?

        假设有这样一个预测购买英雄联盟LOL皮肤的任务。原始特征包括五个维度:游戏年龄(5年以上和5年以下)、性别(男和女)、段位(钻石以下和钻石以上)、皮肤类型(普通或特效皮肤)以及皮肤价格(100以上、100以下)。基于这些基础特征,我们可以构造一些组合特征来探索玩家购买行为的潜在规律。

(1) 我们可以大胆的做一下猜想

  • 游戏年龄与皮肤价格的组合特征:如果认为游戏年龄较长的玩家可能积累了更多的精粹或购买意愿更强,可以创建一个二元特征 "高游戏年龄且高价皮肤",即游戏年龄5年以上并且皮肤价格在100元以上。
  • 段位与皮肤类型的组合特征:段位高的玩家可能更倾向于购买高品质皮肤以展示实力,可以构建一个特征 "高段位玩家购买特效皮肤",即段位在钻石以上并且皮肤类型为特效皮肤。
  • 性别与皮肤类型的组合特征:如果存在性别差异导致的不同皮肤类型偏好,可以创建一个特征 "女性玩家购买特效皮肤" 或 "男性玩家购买普通皮肤"。
  • 段位与皮肤价格的组合特征:结合段位和皮肤价格,可构造特征 "钻石以上段位玩家购买100元以上的皮肤",表示高端玩家在购买较高价位皮肤方面的可能性

(2)基于决策树的特征组合寻找方法

        基于决策树的特征组合寻找方法是利用在构建树的过程中选择最优特征来进行分割,这个最优特征通常是基于信息增益、信息增益比或基尼不纯度等准则来衡量的。这意味着在决策树生长过程中,已经自动完成了特征选择和组合。因为在分裂节点时,模型会尝试找出最能够区分不同类别或降低熵的最佳特征及其分割点。从根节点到叶子节点的每一条路径就代表了一个特征选择序列,这个序列就是一种特征组合。

① 假设构建了这样一棵树

② 基于决策树有效的找到组合特征

用户游戏年龄性别段位皮肤类型皮肤价格购买预测标签
Alice5年以上钻石以上史诗皮肤100元以上1
Bob5年以下钻石以下普通皮肤100元以下1

        将样本输入上面的决策树,就可以得到购买预测结果。 根据上图中的决策树,每一路径从根节点到叶子节点都代表了一种可能的组合。得到如下的组合特征:

  • 游戏年龄与皮肤价格的组合特征
  • 游戏年龄与皮肤类型的组合特征

        决策树会自动生成一系列特征组合路径,这些路径反映了特征之间相互作用对最终决策的影响,进而帮助我们发现哪些特征组合对预测任务最为关键。

  • 39
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
自1967年裁决“ Katz诉美国”一案以来,最高法院将不受政府不必要的审查的权利与对隐私的合理期望的概念联系在一起。 除其他因素外,对合理期望的评估取决于对政府行动的介入性的评估。 在历史上进行这种评估时,法院认为警察的行为具有明确的时间,地理或实质限制。 但是,在新技术允许存储和汇编大量个人数据的时代,事情变得越来越复杂。 一种被称为“马赛克理论”的思想流传到了虚无之中,敲响了警钟,即我们用来评估政府干预性的旧工具可能会低估隐私权。 镶嵌理论家主张采用累积方法来评估数据收集。 根据该理论,搜索“被分析为步骤的总体顺序,而不是单个步骤”。 该方法基于这样的认识,即即使看似无害的数据的全面汇总也比孤立地考虑每条信息显示出更大的洞察力。 随着时间的流逝,监视数据的离散单位可以被处理以创建习惯,人际关系等等的马赛克。 因此,仅关注于政府零散数据的离散单位收集的第四修正案分析并没有意识到长期监视的真正危害-综合监视。 在位置跟踪的背景下,法院先前曾建议,第四修正案(在一定的理论门槛下)可能与监视揭示的累积信息有关。 同样,在法院最近在《美国诉琼斯案》中的判决中,多数同意法官表示愿意探索这种方法。 但是,总的来说,法院拒绝了任何有关技术增强对宪法规定的位置跟踪处理至关重要的观点。 相反,它发现在公共场所进行的这种监视,不需要物理侵入,就相当于一条人的尾巴,因此不受《第四修正案》的管制。 这样,法院避免了对该修正案的保护进行定量分析。 法院的沉默基于引人入胜的直接主张,即镶嵌理论下的客观性是不可能的。 这在很大程度上是正确的,因为尚未提供任何理由将客观的相对短期监测与持续时间较长的监测客观地区分开。 正如斯卡利亚大法官最近在琼斯所观察到的那样:“为何为期4周的调查“肯定”太长,仍无法解释。” 本文建议,通过将机器学习的课程与镶嵌理论相结合,并将该配对应用于第四修正案,我们可以看到响应的轮廓。 机器学习清楚地表明可以创建镶嵌图。 此外,在这种情况下,还需要学习一些重要的经验教训。 机器学习是计算机科学的一个分支,研究通常可以通过数学算法从数据收集中得出推论的系统。 在最近一次名为“诺基亚移动数据挑战赛”的竞赛中,研究人员评估了机器学习对GPS和手机信号塔数据的适用性。 研究人员仅从用户的位置历史记录中就能够估算出用户的性别,婚姻状况,职业和年龄。 为比赛开发的算法还能够通过观察过去的位置历史来预测用户的未来位置。 通过使用朋友和社交联系人的位置数据,甚至可以进一步改善用户未来位置的预测。 诺基亚竞赛中展出的这种机器学习旨在通过有效地组织数据,查找统计规律和其他模式并据此做出预测来利用当今信息社会的数据泛滥。 机器学习算法能够推断出信息(包括与输入数据没有明显关联的信息),而这些信息由于手动和人工驱动的调查的自然局限性而可能一直不公开。 分析师可以使用一个数据集“训练”机器学习程序,以在新数据集中找到相似的特征。 当应用于人们生成的数字“面包屑”数据时,机器学习算法可以做出有针对性的个人预测。 评估的数据点数量越多,算法结果的准确性就越高。 在五个部分中,本文提出了以下结论:调查的持续时间与其实质性的第四修正案有关,因为调查的持续时间会影响预测的准确性。 尽管以前很难解释为什么对四个星期的调查与对四个小时的调查本质上不同,但是现在通过机器学习的角度来看,我们对聚合数据的价值有了更好的了解。 在某些情况下,可以用很少的数据点来生成惊人的准确度预测。 此外,在其他情况下,准确性可以大大提高到某些阈值以上。 例如,2012年的一项研究发现,通过五个星期的电话数据监控,推论种族的能力横盘整理,在那一刻急剧跃升至一个新的高峰,然后在28周后又急剧上升。 更值得注意的是,经过五天的数据输入后,识别目标重要目标的准确性大大提高了。 像这样的实验支持阈值的概念,在这一点上画出第四条修正线是有意义的。 为了提供区分不同持续时间的执法活动的客观依据,可以将机器学习算法的结果与隐私度量的概念(例如,k匿名或l多样性)组合。 尽管有理智的人可能会质疑最合适的最低准确度阈值,但本文提出的情况是,在没有搜查令的情况下,允许进行超出所选阈值的预测的数据点的收集应视为不合理的搜索。 此外,任何新规则都不仅应考虑收集到的数据,而且还应考虑机器学习技术的可预见的改进,这些改进最终将被应用到机器学习技术上。 这包括对较旧的数据使用将来的算法。 在2001年,最高法院到“技术在缩小有保证的隐私领域方面有什么限制”。 在这一部分中,我们将探讨一个答案,并研究技术在保护有保障的隐私领域的力量方面有哪些教训。 毕竟,随着技术的普及,它也给与了回报。 机器学习揭示的对数据汇编和分析的客观理解提供了重要的第四修正案见解。 我们应该开始更仔细地考虑这些见解。
智能机器人的发展(1)全文共7页,当前为第1页。智能机器人的发展(1)全文共7页,当前为第1页。智能机器人的发展 智能机器人的发展(1)全文共7页,当前为第1页。 智能机器人的发展(1)全文共7页,当前为第1页。 摘要:机器人是一种自动化的机器,所不同的是这种机器具备一些与人或生物相似的智能能力,如感知能力、规划能力、动作能力和协同能力,是一种具有高度灵活性的自动化机器。随着科学技术的发展,各种机器都朝着智能化发展,机器人也不甘落后。智能机器人可以应用于各种领域,可以帮助我们解决很多难题,并且在生活中已有很多应用。本文就智能机器人的发展进行论述。 关键词:机器人 智能 发展 一、定义 机器人(Robot)是自动执行工作的机器装置。它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代人类工作的工作,例如生产业、建筑业,或是危险的工作。联合国标准化组织采纳了美国机器人协会给机器人下的定义:"一种可编程和多功能的,用来搬运材料、零件、工具的操作机;或是为了执行不同的任务而具有可改变和可编程动作的专门系统。智能机器人则是一个在感知- 思维- 效应方面全面模拟人的机器系统,外形不一定像人。它是人工智能技术的综合试验场,可以全面地考察人工智能各个领域的技术,研究它们相互之间的关系。还可以在有害环境中代替人从事危险工作、上天下海、战场作业等方面大显身手。一部智能机器人应该具备三方面的能力:感知环境的能力、执行某种任务而对环境施加影响的能力和把感知与行动联系起来的能力。 二、发展现状 现代社会,各行各业都有机器人的影子。机器人是一个现代化的技术,今天的大部分东西都正在与自动化的机器人的帮助。 以先进的技术是对人类的依赖有所降低,在很大程度上感谢。 机器人有许多优点和一些限制。自动化程序的最大的优点之一是结果的准确性。 一个错误的机器人去的机会非常有限,而且作为一个进程,这件事可能会失败或得到执行,以完美。 机器人被用来在几个行业,如汽车,医药,家用电器和几个。 最复杂的机器可组合使用机器人。机器人也发挥相当一个在医药行业中的重要作用。 从准备药物表演手术简单的任务。 然而,实际药水是手术和其他进程不能留给机器人和人类干扰是不可避免智能机器人的发展(1)全文共7页,当前为第2页。智能机器人的发展(1)全文共7页,当前为第2页。的存在。机器人是非常有利的几种途径,一种人。 例如,在许多人不适合工作的地方,如化工厂,或药品和接触某些化学品不断未必是人类良好的条件。 但是,如果这些责任是自动使用的机器人,那么人类不必面对工作的基础上工伤和职业病。 当涉及到处理有害物质的机器人更适合。 有利也有类似的机器人应用在其他一些行业。今天,机器人还用于发射卫星和旅行到一个完全不同的星球。 机器人正在发射火星探索地球,并正在与平价与人类智慧的设计。 智能机器人的发展(1)全文共7页,当前为第2页。 智能机器人的发展(1)全文共7页,当前为第2页。 智能机器人是第三代机器人,这种机器人带有多种传感器,能够将多种传感器得到的信息进行融合,能够有效的适应变化的环境,具有很强的自适应能力、学习能力和自治功能。目前研制中的智能机器人智能水平并不高,只能说是智能机器人的初级阶段。智能机器人研究中当前的核心题有两方面:一方面是,提高智能机器人的自主性,这是就智能机器人与人的关系而言,即希望智能机器人进一步独立于人,具有更为友善的人机界面。从长远来说,希望操作人员只要给出要完成的任务,而机器能自动形成完成该任务的步骤,并自动完成它。另一方面是,提高智能机器人的适应性,提高智能机器人适应环境变化的能力,这是就智能机器人与环境的关系而言,希望加强它们之间的交互关系。智能机器人涉及到许多关键技术,这些技术关系到智能机器人的智能性的高低。这些关键技术主要有以下几个方面:多传感信息耦合技术,多传感器信息融合就是指综合来自多个传感器的感知数据,以产生更可靠、更准确或更全面的信息,经过融合的多传感器系统能够更加完善、精确地反映检测对象的特性,消除信息的不确定性,提高信息的可靠性;导航和定位技术,在自主移动机器人导航中,无论是局部实时避障还是全局规划,都需要精确知道机器人或障碍物的当前状态及位置,以完成导航、避障及路径规划等任务;路径规划技术,最优路径规划就是依据某个或某些优化准则,在机器人工作空间中找到一条从起始状态到目标状态、可以避开障碍物的最优路径;机器人视觉技术,机器人视觉系统的工作包括图像的获取、图像的处理和分析、输出和显示,核心任务是特征提取、图像分割和图像辨识;智能控制技术,智能控制方法提高了机器人的速度及精度;人机接口技术,人机接口技术是研究如何使人方便自然地与计算机交流。 在各国的智能机器人发展中,美国的智能机器人
智能机器人的发展全文共7页,当前为第1页。智能机器人的发展全文共7页,当前为第1页。智能机器人的发展 智能机器人的发展全文共7页,当前为第1页。 智能机器人的发展全文共7页,当前为第1页。 摘要:机器人是一种自动化的机器,所不同的是这种机器具备一些与人或生物相似的智能能力,如感知能力、规划能力、动作能力和协同能力,是一种具有高度灵活性的自动化机器。随着科学技术的发展,各种机器都朝着智能化发展,机器人也不甘落后。智能机器人可以应用于各种领域,可以帮助我们解决很多难题,并且在生活中已有很多应用。本文就智能机器人的发展进行论述。 关键词:机器人 智能 发展 一、定义 机器人(Robot)是自动执行工作的机器装置。它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代人类工作的工作,例如生产业、建筑业,或是危险的工作。联合国标准化组织采纳了美国机器人协会给机器人下的定义:"一种可编程和多功能的,用来搬运材料、零件、工具的操作机;或是为了执行不同的任务而具有可改变和可编程动作的专门系统。智能机器人则是一个在感知- 思维- 效应方面全面模拟人的机器系统,外形不一定像人。它是人工智能技术的综合试验场,可以全面地考察人工智能各个领域的技术,研究它们相互之间的关系。还可以在有害环境中代替人从事危险工作、上天下海、战场作业等方面大显身手。一部智能机器人应该具备三方面的能力:感知环境的能力、执行某种任务而对环境施加影响的能力和把感知与行动联系起来的能力。 二、发展现状 现代社会,各行各业都有机器人的影子。机器人是一个现代化的技术,今天的大部分东西都正在与自动化的机器人的帮助。 以先进的技术是对人类的依赖有所降低,在很大程度上感谢。 机器人有许多优点和一些限制。自动化程序的最大的优点之一是结果的准确性。 一个错误的机器人去的机会非常有限,而且作为一个进程,这件事可能会失败或得到执行,以完美。 机器人被用来在几个行业,如汽车,医药,家用电器和几个。 最复杂的机器可组合使用机器人。机器人也发挥相当一个在医药行业中的重要作用。 从准备药物表演手术简单的任务。 然而,实际药水是手术和其他进程不能留给机器人和人类干扰是不可避免智能机器人的发展全文共7页,当前为第2页。智能机器人的发展全文共7页,当前为第2页。的存在。机器人是非常有利的几种途径,一种人。 例如,在许多人不适合工作的地方,如化工厂,或药品和接触某些化学品不断未必是人类良好的条件。 但是,如果这些责任是自动使用的机器人,那么人类不必面对工作的基础上工伤和职业病。 当涉及到处理有害物质的机器人更适合。 有利也有类似的机器人应用在其他一些行业。今天,机器人还用于发射卫星和旅行到一个完全不同的星球。 机器人正在发射火星探索地球,并正在与平价与人类智慧的设计。 智能机器人的发展全文共7页,当前为第2页。 智能机器人的发展全文共7页,当前为第2页。 智能机器人是第三代机器人,这种机器人带有多种传感器,能够将多种传感器得到的信息进行融合,能够有效的适应变化的环境,具有很强的自适应能力、学习能力和自治功能。目前研制中的智能机器人智能水平并不高,只能说是智能机器人的初级阶段。智能机器人研究中当前的核心题有两方面:一方面是,提高智能机器人的自主性,这是就智能机器人与人的关系而言,即希望智能机器人进一步独立于人,具有更为友善的人机界面。从长远来说,希望操作人员只要给出要完成的任务,而机器能自动形成完成该任务的步骤,并自动完成它。另一方面是,提高智能机器人的适应性,提高智能机器人适应环境变化的能力,这是就智能机器人与环境的关系而言,希望加强它们之间的交互关系。智能机器人涉及到许多关键技术,这些技术关系到智能机器人的智能性的高低。这些关键技术主要有以下几个方面:多传感信息耦合技术,多传感器信息融合就是指综合来自多个传感器的感知数据,以产生更可靠、更准确或更全面的信息,经过融合的多传感器系统能够更加完善、精确地反映检测对象的特性,消除信息的不确定性,提高信息的可靠性;导航和定位技术,在自主移动机器人导航中,无论是局部实时避障还是全局规划,都需要精确知道机器人或障碍物的当前状态及位置,以完成导航、避障及路径规划等任务;路径规划技术,最优路径规划就是依据某个或某些优化准则,在机器人工作空间中找到一条从起始状态到目标状态、可以避开障碍物的最优路径;机器人视觉技术,机器人视觉系统的工作包括图像的获取、图像的处理和分析、输出和显示,核心任务是特征提取、图像分割和图像辨识;智能控制技术,智能控制方法提高了机器人的速度及精度;人机接口技术,人机接口技术是研究如何使人方便自然地与计算机交流。 在各国的智能机器人发展中,美国的智能机器人技术在国际上一直处于领先地位,其技术全面、先进,

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值