python实践(数据挖掘)
以大三的数据挖掘为起点(赵坤)
术业有专攻,闻道有先后
这个作者很懒,什么都没留下…
展开
-
KNN&朴素贝叶斯(根据已知推测未知)
KNN算法原理及示例1:向量化。原创 2023-12-09 13:03:32 · 518 阅读 · 0 评论 -
决策树(Classification and Regression Tree)
学了数据结构的树后,一直没发现树有哪些应用。2.数据库索引:数据库管理系统使用树结构(如B树或红黑树)来加速数据的检索和排序。1.文件系统:文件和目录的组织通常以树的形式表示,允许高效的文件索引和管理。3.编译器:语法分析器通常使用语法树来确定程序的结构,以便进行编译和优化。5.图形学:场景图和层次结构通常以树形式表示,用于图形渲染和动画。计算基尼系数如下,房子的基尼系数最小,故先将房子建立决策树。:决策树和行为树结构等树结构用于模拟决策和行为。后以工作作为节点,建立决策树。最终的决策树建立成功!原创 2023-11-30 16:29:57 · 650 阅读 · 0 评论 -
奇异值分解SVD(Singular Value Decomposition)
注:SVD和PCA不同,PCA是对数据的协方差矩阵进行矩阵的分解,而SVD是直接在原始矩阵上进行分解。2.隐形语义索引:最早的SVD应用之一就是信息检索,我们称利用SVD的方法为隐性语义检索。1.通过SVD对数据的处理,我们可以使用小得多的数据集来表示原始数据集,这样做实际上是。:SVD的另一个应用就是推荐系统,较为先进的推荐系统先利用SVD从数据中构建一。个主题空间,然后再在该空间下计算相似度,以此提高推荐的效果。奇异值分解是让机器从大量数据集中提取出关键信息的重要手段。(矩阵中的泰勒公式,哈哈)原创 2023-11-30 15:36:59 · 461 阅读 · 0 评论 -
数据挖掘之PCA-主成分分析
PCA的用处:找出反应数据中最大变差的投影(就是拉的最开)。在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的但是什么时候信息保留的最多呢?具体一点?首先:去中心化(把坐标原点放到数据中心,如上图所示)然后,找坐标系(找到方差最大的方向)问题是:怎么找到方差最大的方向呢????????原创 2023-11-24 17:02:35 · 1077 阅读 · 0 评论 -
数据挖掘之单值/双值分析
上了好多课了,这次终于有个项目了,话不多说,show一下(趋势图/单值统计/单值标量类别/双值相关性分析/双值统计分布)原创 2023-11-18 10:25:34 · 103 阅读 · 0 评论 -
数据挖掘note(赵老师语录)
例如从几十万条终端行为数据中找到攻击者在内网渗透的迹象,或者发现某个内部员工周期性将企业内部敏感信息发到互联网上。数据挖掘可以检查复杂的多源数据,通过模糊匹配、集合理论以及结合专家系统以执行数据函数或者建模分析。最终了解与企业内的活动和趋势有关的信息,比如找到黑客攻击行为、内鬼或者企业内部的安全隐患等。这些数据的挖掘最终会形成企业安全知识,通过可视化技术展现给客户管理层,辅助他们做出决策。这是一个大数据时代,但是数据挖掘的利用率不足0.5%,可见数据挖掘的空间巨大!问题:数据挖掘对信息安全有什么用?原创 2023-09-20 19:29:05 · 744 阅读 · 0 评论