数据挖掘
文章平均质量分 93
dcjszhr
这个作者很懒,什么都没留下…
展开
-
关联规则挖掘
● 项集(Itemset)■ 一组物品的子集,例如:{面包}、{酸奶}、{面包, 酸奶}、{牛奶}、{麦片}、{鸡蛋}、{面包, 牛奶}、{面包, 牛奶, 麦片} 等。● K-项集(K-itemset)■ 包含k个物品的项集,例如,当k=3时:{面包, 牛奶, 麦片}、{面包, 酸奶, 奶酪}、{酸奶, 牛奶, 麦片}、{酸奶, 麦片, 奶酪}、{牛奶, 麦片, 奶酪}、{面包, 牛奶, 鸡蛋} 等。● 支持计数 SC (Support Count)■ 包含某个项集的交易数量。原创 2023-09-12 00:00:21 · 51 阅读 · 0 评论 -
聚类,K-Means,DBSCAN,层次聚类,链接方法,簇评估合集
● 目标:将未标记的数据分成相似对象/点的组。■ 最大化簇内相似性并最小化簇间相似性。● 基本特征■ 簇:基于密度■ 聚类:划分式、互斥、部分● 输入(对于d维欧几里得空间)■■— 定义点邻域的半径■— 最小点数● 基本特性■ 簇:基于树状结构或层次结构■ 聚类:层次的(显然!),完整的, 每一层都是互斥的!● 原则上没有参数化■ 在实践中,通常指定簇的数量 与K-均值相似■ 选择不同的度量来计算 簇之间的距离。原创 2023-09-09 01:40:52 · 133 阅读 · 0 评论 -
发现知识和数据挖掘
● 选择与给定任务相关的数据● 处理缺失的数据● 删除重复项● 特征选择● 归一化● ...● 将数据转换为合适的表示形式● 聚类● 分类● 回归● 关联● 相关性● ...● 可视化● 解释● 理解● ...主要目标:泛化性■ 模式应对未见过的数据保持准确■ 泛化性可能因为数据量小和/或数据有偏见而受到影响。高冰淇淋销售额,鲨鱼攻击次数越多。但这并不意味着两者之间有直接关系。更可能的解释是存在一个混淆变量:天气,特别是温度。● 输入:事务数据。原创 2023-08-26 12:54:25 · 47 阅读 · 0 评论 -
数据分类&回归
● 分类与回归■ 监督机器学习的核心任务■ 训练:在数据集中找到依赖变量的值与独立变量(特征)的值之间的模式■ 预测:使用这些模式为新的/未见过的数据的依赖变量分配值● 分类与回归的区别■ 分类:依赖变量是分类的■ 回归:依赖变量是连续的● k 太小 -- 过拟合的风险■ 预测对噪声/异常值敏感■ 非常不均匀的决策边界 (或回归线)● k 太大 -- 欠拟合的风险■ 无法捕捉局部模式■ 非常平滑的决策边界 (或回归线)● 分类器的评估(对于回归器来说很直接)■ 不同的度量有不同的解释。原创 2023-10-02 22:14:35 · 64 阅读 · 0 评论 -
回归&分类II
● 决策树■ 直观的分类和回归模型 ➜ 可解释!■ 可以处理分类和数值数据(尽管在实践中有点棘手)■ 通常结果不错但不是最好● 树集成■ 目标是解决单个决策树的局限性(特别是高方差)■ 独立模型的集成:Bagging,随机森林■ 依赖模型的集成:AdaBoost,梯度提升树■ 在许多应用场景中是最先进的D_tD_0tI%28t%29In_inI%28i%29I%28t%29IGIG%3E0DD_iDD_iDD_iD_iD_iDD_iD_iD_i1%7DD_mh_mx_ix_ih_m。原创 2023-10-03 01:03:48 · 28 阅读 · 0 评论 -
数据挖掘-推荐系统
● 2 个臭名昭著的副作用 (特别是在推荐新闻或社交媒体帖子时)■ 过滤泡泡■ 回音室效应● 核心问题■ 服务提供商没有动机 确保(足够的)多样性■ 用户不知道显示了哪些内容 以及为什么(或为什么不)● 推荐系统■ 更具体地说:个性化推荐系统■ 许多在线平台的组成部分■ 用户:找到相关项目 + 提供商:展示相关项目■ 但是:过度个性化推荐的风险● 实施推荐系统■ 广泛的数据挖掘技术都适用■ 没有“一刀切”的解决方案■ 在实践中,混合方法最为成功R_%7Buv%7D。原创 2023-11-02 23:03:17 · 56 阅读 · 0 评论 -
数据挖掘-维度降低
■ 只考虑了 3(4个中的3个)特征 — 只为了方便可视化 22 具有3个主成分的数据集 3个 PC 的解释方差。■ 根据其区分数据点的能力移除排名较低的特征 (决策树的基本方法,根节点附近的特征产生更纯净的子树)■ 基于专家知识移除"不重要"的特征 (例如,一个人的出生日期不太可能影响他/她的消费行为)■ 最小化每个类中的转换点的方差 (回想一下 PCA 是最大化整个数据集的方差)■ 由每个主成分所属性的方差的百分比 ➜ 归一化的特征值。■ 更大的perplexity:更多的邻居具有有效的。原创 2023-10-31 22:10:57 · 22 阅读 · 0 评论