RapidMiner简单入门教程——入门必看超详细

RapidMiner使用指南

01工具简介

02数据准备、导入、导出

数据清理:处理缺失数据、约简数据、处理不一致的数据、约简属性

  • 处理缺失数据:移除观察项、集中趋势算数度量代替缺失值等ReplaceMissingValue

  • 约简数据:屏蔽不需要的数据

  • 处理不一致的属性:与期望值不同

  • 属性约简:p维度数据–>数据集x’,维度小于p,消除冗余和不相关的数据

导入数据库

Tool->available database drivers 驱动的数据库

propoties文件与数据库的添加

管理数据库连接:

Connections->Legacy connections->Manage Database Connections可在其中配置连接信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7cLwi7R1-1660987669996)(RapidMiner教程(更新ing)].assets/image-20200418182005056.png)

Name:连接名字 Host:(MySQL)服务器的地址 Port:MySQL服务器的端口号

Database scheme:数据库的实例名字 User Password用户名(好像是root)和密码

Localrepository:本地资源库(将流程保存在process中) data:数据目录

03关联分析和关联规则

Part1关联分析

关联一种统计指标,用于衡量统计量之间的关系强度

数据理解

Insulation 每个家庭的保温层厚度

temperature 每个家庭最近一年的户外平均环境温度

Heating_Oil 最近一年来热燃油用量

Num_Occupants 家庭人口数

Avg_Age 平均年龄

Home_Size 房屋大小

导入数据

File–>import data (演示中的csv文件选择列用逗号分割)

建模

Correlation Matrix 关联矩阵(反应属性值之间的关系强度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqUP4SVi-1660987669998)(RapidMiner教程(更新ing)].assets/image-20200418194027781.png)

模型评估和部署

评估:0~1 正关联; -1~0 负关联

部署:根据模型的结果进行

关联关系不等于因果关系,且关联系数并不表示一个属性变化对另一个属性带来的变化值

用于分类、发现趋势(问题中的因素如何相互关联)

Part2关联规则

关联规则是一种数据挖掘方法,旨在寻找数据集内的属性之间的频繁关联

eg. 哪些产品最经常在一起被购买,电商网站推荐

Elapsed_Time 每个调查对象完成调查所用的时间,精确到0.1分钟

Time_in_Community 用于调查对象在区域居住时的时间是0-2年,3-9年还是10年以上(三类)

Gender Working Age 性别,工作,年龄–>个人属性

Family 是否为家庭导向型的社团组织成员

Hobbies 是否为兴趣爱好导向型的社团组织成员

Social_Club 是否为社区社会组织的成员

Political 是否为政治组织成员

Professional 是否为专业组织成员

Religious 是否为社区教会的成员

Support_Group 是否为援助导向型的社团组织成员

导入数据

一般在均值和两个标准差之外的成为离群点

有些属性和社团没有什么影响

模型

Select Attributes:选择属性操作符(选择需要进行到下一步的操作符)

​ 在attribute filter type中可以选择属性子集,在attributes选择需要包含的内容

Numerical to Binomina:数值到二值转换 此时表格属性全为integer,属性过滤类型可选全部

FP-Growth :找到上个操作返回值的关联关系,生成关联矩阵 ( 平凡项模式

​ 属性会伴随着其他属性以什么样的支持度出现

​ min support最小支持度 :前键为True时后键也为True的概率 前提-结论规则

Create Assotiation Rules:可以通过调整建立关系的参数

​ min confidence 例如最小置信度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4ZXpODot-1660987670000)(RapidMiner教程(更新ing)].assets/image-20200418204119371.png)

模型评估和部署

置信度:有多大信心在一个属性被标记为T是,其关联实行也被标记为T

支持度:规则发生的次数除以数据集中观察项的数量

支持度没有逆值,支持度属性相反不会变化,但置信度的属性相反会会发生变化

  • 将置信度从0.8改为0.5

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uzM55LfP-1660987670001)(RapidMiner教程(更新ing)].assets/image-20200418204457262.png)

  • 修改后关联规则Graph可视化(规则/置信度/支持度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rVSw0q8T-1660987670002)(RapidMiner教程(更新ing)].assets/image-20200418204721844.png)

相反规则支持度不变,置信度改变

模型部署:通过积极调动家庭组织,宗教组织,兴趣爱好组织可以找到城市中可以开展项目合作的团体。让宗教团体的人改善当地自行车道(Hobbies),清扫公园(Family)等…

04K-means分析和辨别分析

06决策树和神经网络

Part1决策树

  • 决策树的生成:训练集;
  • 决策树的剪枝:测试数据集(校验,修正);
User_IDGenderAgeMarital_StatusWebsite_Activity
唯一标识符性别MF年龄婚姻状况(M已婚S未婚丧偶)活跃程度(分成类别)
Browsed_Electronics_12MoBought_Electronics_12Mo
1年内是否在公司网站上浏览电子产品Yes/No1年内是否在公司网站上购买电子产品Yes/No
Bought_Digital_Media_18MoBought_Digital_BooksPayment_Method
是否上购买过某种形式数字媒体Yes/No购买电子阅读器;可能最佳付款方式

eReader_Adoption:训练集中的标签值

tips:决策树可以处理非数据类型 多类型数据

模型

用户id只是唯一表示符,与分类依据无关

Set Role : attribute name选择User_id,target role选择id

​ 对于训练集还有一个label属性也要进行上述操作,设置角色target role为laebl

​ 想要删除掉标记可以在edit list中remove entry

输出后可以发现被set role后的列会高亮

Decision Tree:决策树模型(不同算法criterion中选择,复杂的精度也高/maximal depth决策树最多拓展几 层/叶子大小等等)

  • 节点:不同属性。敏感程度自上而下降低。
  • 叶子节点:鼠标靠近出现点击图标,可以看出各种结果所占的比例

Apply Model:连接训练集与测试集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C3YtzH9O-1660987670003)(RapidMiner教程(更新ing)].assets/image-20200418232957601.png)

模型评估

交叉验证Cross Validation:显示感叹号–>未配置好,运行后返回每个类别的precision和recall

双击进入进行配置:绘制子流程

performance:连接在测试集上进行评价

点击process回到主流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PLRBJxht-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000101482.png)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K9tYHMvy-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000235258.png)

模型部署

对较早购买者不用促销和广告投放

对较早期购买者可以重点投放,促成购买

对中期主体购买者可以提供一定的优惠政策

对晚期购买者可以放弃广告投放

07 文本挖掘

导入数据

数据与处理

分词处理process Documents from Data :处理关系型数据。exa端口输出单词矢量矩阵;wor单词词频列表

​ 对比:process Document

在“Process Documents from Data”操作符参数设置里,如下图我们可以进行许多的参数调整,例如vector creation中除了可以选择“TF-IDF”以外,我们还可以选择“Term Occurrences”单词出现的频率统计,或者“Binary Term Occurrences”二值属性作为输出结果的统计形式。

  • 通过百分比的范围来约简单词数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dveZAkI7-1660987670006)(RapidMiner教程(更新ing)].assets/image-20200617170616113.png)

  • 进入分词处理操作器中:

在上述操作符中需要添加英文分词的操作符号tokenize:把输入的text型字段处理成document类型

其他功能:

转换大小写:Transform Cases 词根处理:Stem(Porter)

过滤停用词:Filter Stepword 处理短语:Generate n-Grams(Terms)

预测分析

617170616113.png)

  • 进入分词处理操作器中:

在上述操作符中需要添加英文分词的操作符号tokenize:把输入的text型字段处理成document类型

其他功能:

转换大小写:Transform Cases 词根处理:Stem(Porter)

过滤停用词:Filter Stepword 处理短语:Generate n-Grams(Terms)

预测分析

贝叶斯算法:对于大量的稀疏矩阵做分类效果好

  • 1
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: RapidMiner是一款功能强大的数据分析平台,可帮助用户高效地进行数据挖掘、机器学习和预测分析。RapidMiner中文手册是一份提供给用户的中文使用手册,方便用户更好地理解和使用RapidMiner软件。 RapidMiner中文手册内容详尽全面,从使用入门到高级数据建模技巧,覆盖了软件的各个功能模块和应用场景。手册以清晰易懂的语言编写,结合图文并茂的示例和操作步骤,为用户提供了全面的学习和参考资料。 手册首先介绍了RapidMiner的基本概念和界面,帮助用户熟悉软件的各个部分以及其功能。接着,手册详细介绍了数据整理和准备的方法,包括数据导入、数据清洗、特征选择等。同时,手册还介绍了常用的数据处理和转换技术,如数据聚类、分类、回归等。 此外,手册还专门介绍了RapidMiner中的机器学习算法及其应用,例如决策树、支持向量机、神经网络等。针对每个算法,手册详细解释了其原理和使用方法,并通过实例演示了具体的操作步骤。 除了基本的数据分析功能,RapidMiner中文手册还介绍了RapidMiner与其他工具的集成和扩展,如与Python和R语言的集成,以及如何自定义算法和运算符等。这些章节帮助用户更好地利用RapidMiner与其它工具和平台进行数据分析和集成开发。 总之,RapidMiner中文手册是一份详实的指南,对于想要学习和掌握RapidMiner数据分析平台的用户来说,是一本非常有用的参考书。无论是初学者还是专业人士,通过学习手册中的知识,用户可以更好地应用RapidMiner进行数据挖掘和机器学习,提高数据分析的效率和准确性。 ### 回答2: RapidMiner是一种强大的数据挖掘工具,它提供了一个直观的界面和丰富的功能,帮助用户从大量的数据中发现隐藏的模式和关联。对于中国用户来说,RapidMiner中文手册是一个宝贵的资源。 RapidMiner中文手册详细介绍了软件的安装与配置过程,以及如何使用各种功能和工具进行数据预处理、特征选择、模型建立等。对于初学者,手册提供了一个清晰的指南,帮助他们快速上手使用RapidMiner。 手册中还涵盖了各种数据挖掘技术和算法的详细解释,例如聚类分析、分类、回归、关联规则等。用户可以根据自己的需求选择适合的算法,并按照手册的指导进行操作。这样,用户不仅可以了解不同算法的原理和使用方法,还可以将其应用到自己的实际问题中。 此外,手册还包含了丰富的示例和案例,让用户能够更好地理解RapidMiner的应用场景和实际操作。这些示例涵盖了各个行业和领域,例如金融、零售、医疗等,帮助用户将理论知识与实际问题相结合,提高数据挖掘的准确性和效果。 总之,RapidMiner中文手册为中国用户提供了一个全面的学习和使用RapidMiner的指南。通过学习手册,用户可以快速掌握RapidMiner的功能和操作技巧,提升数据挖掘的能力,实现更好的数据分析和决策。 ### 回答3: RapidMiner是一款广泛使用的数据挖掘和机器学习工具,它具有友好的用户界面和强大的功能,可用于数据处理、模型建立、预测和评估。RapidMiner为用户提供了丰富的功能和组件,使得数据挖掘和机器学习变得更加简单和高效。 RapidMiner中文手册是RapidMiner官方提供的中文使用指南,旨在帮助用户更好地理解和使用RapidMiner软件。手册包含了详细的介绍和说明,涵盖了RapidMiner软件的各个方面,包括界面介绍、数据导入与预处理、数据转换与清洗、模型建立与评估、结果解释与可视化等内容。 手册以简洁明了的方式呈现了RapidMiner的功能和操作方法,用户可以通过手册快速上手,并深入了解每个功能的用法和效果。手册还提供了丰富的示例和案例分析,帮助用户理解和掌握数据挖掘和机器学习的基本原理和方法。 值得一提的是,RapidMiner中文手册还包含了一些高级主题,如特征选择、集成学习和模型优化等。这些主题对于希望进一步提升数据挖掘和机器学习技能的用户来说非常有用。 总之,RapidMiner中文手册是RapidMiner用户们学习和使用RapidMiner软件的重要参考资料。通过手册,用户可以更快速地掌握RapidMiner的使用技巧和数据挖掘、机器学习方法。无论是初学者还是有经验的用户,都可以通过手册获得更多的知识和技巧,提升数据挖掘和机器学习的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值