数据挖掘习题

银晗

已于 2022-11-19 17:05:25 修改

阅读量460

点赞数 2

分类专栏：大数据文章标签：数据挖掘人工智能 python

于 2022-11-04 10:53:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/RandyHan/article/details/127684087

版权

大数据专栏收录该内容

16 篇文章 2 订阅

订阅专栏

数据挖掘概念与技术课后习题

#数据转换

在这里插入图片描述

我的想法：
在这里插入图片描述

数据处理

在这里插入图片描述

光滑数据：采用滑动平均的方法，设置window_size,进行光滑
规范化：两种方法，归一化、标准化

补充：如果数据不是数值类型的，先进行属性映射，再序列标准化

$\frac{m_i -1}{Max(m) -1}$

哈尔小波分解

在这里插入图片描述
步骤：

按粒度求window均值（粒度就是window_size,不重叠的）
求window的最大的数和均值的差
重复1、2把序列遍历完
合并均值和求完差值的结果，长度应该和原序列等长
重复以上4步，直到达到设定的轮数，分解的越来越小

请添加图片描述

距离计算

在这里插入图片描述
三种距离描述：

Aprior

{1,3,6,8,9}可能的子项集，及频繁子项集
请添加图片描述

FP-Growth

T1

在这里插入图片描述
请添加图片描述

T2

请添加图片描述
个人题解：

请添加图片描述

关于频繁项集的概念

请添加图片描述

关联规则

在这里插入图片描述

写的不对，emmm

判断是否频繁的依据是：
X是否为任一闭频繁项的子集，如果是则频繁,支持度为所属闭频繁项集(集合C中，X可能是多个闭频繁项集的子集)中，支持度计数最大的闭频繁项集的支持度。

所以第二问：应该是X所属闭频繁项集中，支持度计数最大的

SVM

请添加图片描述

请添加图片描述

请添加图片描述

灰色预测模型：

灰色模型（Grey Model，简称GM模型）一般表达方式为GM（n,x）模型，其含义是：用n阶微分方程对x个变量建立模型。

通过把分散在时间轴上的离散数据看成一组连续变化的序列，采用累加和累减的方式，将灰色系统中的未知因素弱化，强化已知因素的影响程度，最后构建一个以时间为变量的连续微分方程，通过数学方法确定方程中的参数，从而实现预测目的。

请添加图片描述

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘习题

数据挖掘习题个人题解，欢迎指正
复制链接

扫一扫

专栏目录

博客等级

码龄4年

127
原创

738
点赞

1550
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

教程操作 5篇
大数据 16篇
深度学习基础 11篇
算法 7篇
机器学习 6篇
GNN 1篇
医疗图像 18篇
Python 8篇
计算机基础 4篇
英语 1篇
Go 2篇
数据结构 2篇

最新评论

LightGBM
gfjy10: 您好，咨询个问题，看一些关于这个lgb算法的介绍，有个最基本的问题，一直没找到答案：lgb的一个优秀特点是：不用把特征列转换成one-hot编码，问题是，如果特征是中文文本，是否需要把中文转换成数值，因为如果不转换成数值，这步model = lgb.train(params, lgb_train, num_boost_round=100, valid_sets=[lgb_eval])，会提示错误：alueError: pandas dtypes must be int, float or bool.Fields with bad pandas dtypes: state: object.如果必须把文本特征转换成数值，应该用什么方法呢
数据并行 - DP/DDP/ZeRO
m0_71534750: 看了几个，你是写的最清楚的
FP tree算法详解附代码及挖掘案例
2401_85283291: 大彻大悟
InterLM代码解析
shixf626: github上没有找到源码工程哇
数据并行 - DP/DDP/ZeRO
feariskplus: 就是zero1+TP

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。