![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
niulity
ORACLE SQL优化 算法
展开
-
Thinking in SQL系列之五:数据挖掘K均值聚类算法与城市分级
SQL做为一种编程语言,能够满足各类数据处理的需要,关键就在于算法与思维方式。个人经常调侃SQL思考问题比大部分流行的开发语言多一个维度,因为SQL主要是二维思考(集合)、区别于一维(数据结构)的思维方式。对于ORACLE,通过以SQL(相对宏观)为主体、PLSQL(微观)为辅助,注入算法(灵魂),贯彻性能优化(章程),数据的价值能够充分有效发挥。聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异原创 2017-02-24 01:41:07 · 4309 阅读 · 0 评论 -
Thinking in SQL系列之四:数据挖掘C4.5决策树算法
C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,积累经验,为后续决策服务。该算法目前能找到各类版本,C、JAVA、PYTHON。但唯独没有SQL版本,前篇我有提过,数据处理,SQL为王,如何以SQL的思维来实现C4.5决策树算法是本篇的重点。SQL本身做为关系代数的优秀产物,通过并、交、乘、除四则运算可以完成任意集合间的处理变换。在数据处理方面有其它语言原创 2017-02-15 01:04:49 · 4444 阅读 · 2 评论 -
Thinking in SQL系列之六:数据挖掘Apriori关联分析再现啤酒尿布神话
说起数据挖掘机器学习,印象中很早就听说过关于啤酒尿布的神话,这个问题经常出现在数据仓库相关的文章中,由此可见啤酒尿布问题对数据挖掘领域影响的深远程度。本篇文章Apriori算法主要是基于频繁集的关联分析,也是十大经典数据挖掘算法之一,本文中所出现的关联分析默认都是指基于频繁集的关联分析。SQL语言处理数据有天生的优势,Thinking in SQL,面向集合思考问题,通过关系运算(并、交、乘、除)处理数据,ORACLE高效的SQL引擎会负责循环处理。结合ORACLE高级开发技巧,通过不断地总结归纳,注入原创 2017-03-19 06:06:18 · 4533 阅读 · 0 评论