数据挖掘课堂笔记
本专栏是学校课程的笔记整理。
kxwang_
【研究领域】
OCSSD | Zns SSD | KV Storage | SSD FTL算法|内核开发
【专业课程】
计算机体系结构 | 操作系统 | 嵌入式系统 | 数据结构 | 数据挖掘 | 深度学习 | 影像处理
【语言 】
英语 |韩语 |C|Python
展开
-
数据挖掘(七)聚类
文章目录聚类分析:基本概念分割方法分层方法基于密度的方法基于网格的方法聚类的评价总结聚类分析:基本概念分割方法分层方法基于密度的方法基于网格的方法聚类的评价总结...原创 2019-12-16 08:30:42 · 812 阅读 · 0 评论 -
数据挖掘(八)相似性
文章目录相似性相似性测量基于文本的相似性度量基本概念向量模型Jaccard coefficientCosineDice Coefficient概率模型BM25基于链接的相似性度量基本概念Non Recursive 度量Co-citationBibliographic coupling ( Coupling)AmslerNon Recursive 度量的问题Recursive 度量SimRankSi...原创 2019-12-16 08:29:33 · 508 阅读 · 0 评论 -
数据挖掘(六)分类
文章目录分类什么是分类?分类和数值预测监督 VS 无监督学习分类过程决策树决策树介绍决策树示例决策树算法特征选择特征选择方法:Information Gain (ID3)计算连续值型特征的信息增益Gain Ratio (C4.5)贝叶斯分类方法规则分类模型评估与选择提高分类准确性的技术总结分类什么是分类?假设:银行贷款员需要对其数据进行分析,以了解贷款申请人对银行而言“安全”还是“风险”...原创 2019-12-16 08:30:12 · 581 阅读 · 0 评论 -
数据挖掘(五)频繁模式挖掘和算法
什么是频繁模式(Frequent Pattern )分析?频繁模式:在数据集中频繁出现的模式(项集,子序列,子结构等)项目集:牛奶和面包经常一起出现子序列:购买PC,然后购买数码相机子结构:大图中的频繁子图在频繁项集和关联规则挖掘的背景下提出动机:找到数据固有的规律性通常一起购买什么产品? 啤酒和尿布?购买电脑后,以后会购买什么哪种DNA对新药敏感?应用购物篮数据分...原创 2019-10-26 13:29:44 · 1322 阅读 · 0 评论 -
数据挖掘(四)数据仓库
Data Warehouse数据仓库什么是数据仓库有许多不同的定义方式,但并不严格。与组织运营数据库分开维护的决策支持数据库通过提供用于分析的合并历史数据的可靠平台来支持信息处理。数据仓库是面向主题的集成,时变和非易失性数据收集,以支持管理层的决策过程。数据仓库:数据仓库的构建和使用过程数据仓库建模:数据Cube和OLAP数据仓库基于多维数据模型,该数据模型以数据立方体的形式...原创 2019-10-26 00:43:05 · 219 阅读 · 0 评论 -
数据挖掘(三)数据预处理
数据预处理:概述为什么要对数据进行预处理?如果数据符合预期用途的要求,则数据具有质量不同的用户可能对质量有不同的评估数据质量的因素:准确性:正确或错误,准确或嘈杂完整性:未记录,不可用,…一致性:有些经过修改,但有些则没有,悬而未决……及时性:及时更新?可信度:数据有多可靠?可解释性:如何容易理解数据?数据清理填写缺失值,平滑嘈杂数据,识别或消除异常值并解决不一致问...原创 2019-10-26 00:30:31 · 168 阅读 · 0 评论 -
数据挖掘(二)数据
了解了什么是数据挖掘以后就开始了解你的数据数据对象与属性类型记录关系记录数据矩阵,例如数值矩阵,交叉表文档数据:文本文档:术语频率向量交易数据图形和网络万维网社交信息网络分子结构顺序的视频数据:图像序列时间数据:时间序列顺序数据:交易顺序遗传序列数据空间,图像和多媒体空间数据:地图图像数据视频数据数据对象数据集由数据对象组成数据对象代...原创 2019-10-25 23:50:53 · 139 阅读 · 0 评论 -
数据挖掘(一)简介
为什么要数据挖掘Data: 任何事实,数字或文字都可以由计算机处理在超市出售不同商品的相关数据Information: 由数据之间的模式,关联或关系提供上个月哪些商品最畅销?通常通过查询获得**Knowledge:**信息可以转换为有关历史模式和未来趋势的知识通常一起购买哪些商品?通过分析计算机算法获得数据从TB爆炸式增长到PB,现在是数据时代不是信息时代数据...原创 2019-10-25 23:22:02 · 228 阅读 · 0 评论