RapidMiner简单入门教程——入门必看超详细

最新推荐文章于 2025-02-24 13:39:44 发布

村里小公举

最新推荐文章于 2025-02-24 13:39:44 发布

阅读量9.6k

点赞数 2

分类专栏： rapidminer 文章标签：数据库 mysql

本文链接：https://blog.csdn.net/m0_56134806/article/details/126442217

版权

rapidminer 专栏收录该内容

8 篇文章

订阅专栏

RapidMiner使用指南

01工具简介

02数据准备、导入、导出

数据清理：处理缺失数据、约简数据、处理不一致的数据、约简属性

处理缺失数据：移除观察项、集中趋势算数度量代替缺失值等ReplaceMissingValue
约简数据：屏蔽不需要的数据
处理不一致的属性：与期望值不同
属性约简：p维度数据–>数据集x’，维度小于p，消除冗余和不相关的数据

导入数据库

Tool->available database drivers 驱动的数据库

propoties文件与数据库的添加

管理数据库连接:

Connections->Legacy connections->Manage Database Connections可在其中配置连接信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7cLwi7R1-1660987669996)(RapidMiner教程(更新ing)].assets/image-20200418182005056.png)

Name:连接名字 Host：(MySQL)服务器的地址 Port:MySQL服务器的端口号

Database scheme：数据库的实例名字 User Password用户名（好像是root）和密码

Localrepository：本地资源库（将流程保存在process中） data：数据目录

03关联分析和关联规则

Part1关联分析

关联一种统计指标，用于衡量统计量之间的关系强度

数据理解

Insulation 每个家庭的保温层厚度

temperature 每个家庭最近一年的户外平均环境温度

Heating_Oil 最近一年来热燃油用量

Num_Occupants 家庭人口数

Avg_Age 平均年龄

Home_Size 房屋大小

导入数据

File–>import data (演示中的csv文件选择列用逗号分割)

建模

Correlation Matrix 关联矩阵（反应属性值之间的关系强度）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqUP4SVi-1660987669998)(RapidMiner教程(更新ing)].assets/image-20200418194027781.png)

模型评估和部署

评估：0~1 正关联； -1~0 负关联

部署：根据模型的结果进行

关联关系不等于因果关系，且关联系数并不表示一个属性变化对另一个属性带来的变化值

用于分类、发现趋势（问题中的因素如何相互关联）

Part2关联规则

关联规则是一种数据挖掘方法，旨在寻找数据集内的属性之间的频繁关联

eg. 哪些产品最经常在一起被购买，电商网站推荐

Elapsed_Time 每个调查对象完成调查所用的时间，精确到0.1分钟

Time_in_Community 用于调查对象在区域居住时的时间是0-2年，3-9年还是10年以上（三类）

Gender Working Age 性别，工作，年龄–>个人属性

Family 是否为家庭导向型的社团组织成员

Hobbies 是否为兴趣爱好导向型的社团组织成员

Social_Club 是否为社区社会组织的成员

Political 是否为政治组织成员

Professional 是否为专业组织成员

Religious 是否为社区教会的成员

Support_Group 是否为援助导向型的社团组织成员

导入数据

一般在均值和两个标准差之外的成为离群点

有些属性和社团没有什么影响

模型

Select Attributes：选择属性操作符（选择需要进行到下一步的操作符）

在attribute filter type中可以选择属性子集，在attributes选择需要包含的内容

Numerical to Binomina：数值到二值转换此时表格属性全为integer，属性过滤类型可选全部

FP-Growth ：找到上个操作返回值的关联关系，生成关联矩阵（ 平凡项模式）

属性会伴随着其他属性以什么样的支持度出现

min support最小支持度：前键为True时后键也为True的概率 前提-结论规则

Create Assotiation Rules：可以通过调整建立关系的参数

min confidence 例如最小置信度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4ZXpODot-1660987670000)(RapidMiner教程(更新ing)].assets/image-20200418204119371.png)

模型评估和部署

置信度：有多大信心在一个属性被标记为T是，其关联实行也被标记为T

支持度：规则发生的次数除以数据集中观察项的数量

支持度没有逆值，支持度属性相反不会变化，但置信度的属性相反会会发生变化

将置信度从0.8改为0.5

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uzM55LfP-1660987670001)(RapidMiner教程(更新ing)].assets/image-20200418204457262.png)

修改后关联规则Graph可视化（规则/置信度/支持度）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rVSw0q8T-1660987670002)(RapidMiner教程(更新ing)].assets/image-20200418204721844.png)

相反规则支持度不变，置信度改变

模型部署：通过积极调动家庭组织，宗教组织，兴趣爱好组织可以找到城市中可以开展项目合作的团体。让宗教团体的人改善当地自行车道（Hobbies），清扫公园（Family）等…

04K-means分析和辨别分析

06决策树和神经网络

Part1决策树

决策树的生成：训练集；
决策树的剪枝：测试数据集（校验，修正）；

User_ID Gender Age Marital_Status Website_Activity
唯一标识符性别MF 年龄婚姻状况（M已婚S未婚丧偶）活跃程度（分成类别）

Browsed_Electronics_12Mo Bought_Electronics_12Mo
1年内是否在公司网站上浏览电子产品Yes/No 1年内是否在公司网站上购买电子产品Yes/No

Bought_Digital_Media_18Mo Bought_Digital_Books Payment_Method
是否上购买过某种形式数字媒体Yes/No 购买电子阅读器；可能最佳 付款方式

eReader_Adoption：训练集中的标签值

tips:决策树可以处理非数据类型 多类型数据

User_ID	Gender	Age	Marital_Status	Website_Activity
唯一标识符	性别MF	年龄	婚姻状况（M已婚S未婚丧偶）	活跃程度（分成类别）

Browsed_Electronics_12Mo	Bought_Electronics_12Mo
1年内是否在公司网站上浏览电子产品Yes/No	1年内是否在公司网站上购买电子产品Yes/No

Bought_Digital_Media_18Mo	Bought_Digital_Books	Payment_Method
是否上购买过某种形式数字媒体Yes/No	购买电子阅读器；可能最佳	付款方式

模型

用户id只是唯一表示符，与分类依据无关

Set Role ： attribute name选择User_id，target role选择id

对于训练集还有一个label属性也要进行上述操作，设置角色target role为laebl

想要删除掉标记可以在edit list中remove entry

输出后可以发现被set role后的列会高亮

Decision Tree：决策树模型（不同算法criterion中选择，复杂的精度也高/maximal depth决策树最多拓展几层/叶子大小等等）

节点：不同属性。敏感程度自上而下降低。
叶子节点：鼠标靠近出现点击图标，可以看出各种结果所占的比例

Apply Model：连接训练集与测试集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C3YtzH9O-1660987670003)(RapidMiner教程(更新ing)].assets/image-20200418232957601.png)

模型评估

交叉验证Cross Validation：显示感叹号–>未配置好，运行后返回每个类别的precision和recall

双击进入进行配置：绘制子流程

performance：连接在测试集上进行评价

点击process回到主流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PLRBJxht-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000101482.png)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K9tYHMvy-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000235258.png)

模型部署

对较早购买者不用促销和广告投放

对较早期购买者可以重点投放，促成购买

对中期主体购买者可以提供一定的优惠政策

对晚期购买者可以放弃广告投放

07 文本挖掘

导入数据

数据与处理

分词处理process Documents from Data ：处理关系型数据。exa端口输出单词矢量矩阵；wor单词词频列表

对比：process Document

在“Process Documents from Data”操作符参数设置里，如下图我们可以进行许多的参数调整，例如vector creation中除了可以选择“TF-IDF”以外，我们还可以选择“Term Occurrences”单词出现的频率统计，或者“Binary Term Occurrences”二值属性作为输出结果的统计形式。