
数据处理
本自具足反求诸己
道生之,德畜之,物形之,势成之。
德之自身,其德乃真。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
图挖掘、社会网络分析和多关系数据挖掘
1.图挖掘的主要目标答:挖掘频繁子结构是图集合中非常基本的模式。频繁子结构可以刻画集合的特征,区分不同的组群体,对图进行分类和聚类,构造图索引和更方便地在图数据库中进行相似性搜索。频繁图的基本定义:图g的顶点集合用V(g)表示,边集合用E(g)表示。标号函数L将顶点或边映射到标号。图g是另一个图G的子图,如果存在从图g到图G的子图同构。给定一个标记的图数据集D={G1,G...原创 2020-03-26 10:47:36 · 1913 阅读 · 0 评论 -
挖掘流、时间序列和序列数据
1.挖掘数据流的基本相关概念答:时间序列数据库由不同时间点重复测量的值或者事件的序列组成。序列数据库是由记录带有或不带有具体时间概念的有序元素或者事件的序列组成。数据流以不同更新速率连续地流进或者流出计算机系统,数据具有按时间顺序的、快速变化的、海量的、潜在无限的。针对数据流的挖掘以单遍扫描为主,因为多遍扫描的代价非诚高。2.流数据处理方法的考虑答:因为流数据的数据量...原创 2020-03-26 10:46:52 · 1056 阅读 · 0 评论 -
聚类分析
总述:聚类分析是寻找数据当中高数据浓度的集合,这些高数据浓度的集合可以辅助后续的数据规约、数据变换、数据分类等操作。这些具体的处理方法需要根据实际的业务数据需要进行配合。什么是聚类分析 聚类分析中的数据类型 主要聚类方法的分类 划分方法的常用方法 层次方法的常用方法 基于密度的方法 基于网格的方法 基于模型的聚类方法 聚类高维数据 基于约束的聚类分析 离群点分析...原创 2020-01-20 17:30:20 · 1863 阅读 · 0 评论 -
分类和预测
总述:分类和预测是数据挖掘当中梳理数据信息,提高有用数据浓度的常用操作,是数据挖掘的核心处理部分。什么是分类,什么是预测 分类和预测需要注意的问题 使用决策树归纳分类 贝叶斯分类 基于规则的分类 向后传播分类 支持向量机 基于关联规则分析的分类 惰性学习法 其他的分类方法 预测 分类器或预测器的准确率和误差的度量 提高分类准确率的策略 如何选择合适的分类模型...原创 2020-01-20 17:29:45 · 4806 阅读 · 0 评论 -
挖掘频繁模式、关联和相关
总述:在应用数据挖掘方法的时候,我们要找到算法的约束条件和化简条件,缩减算法的时间复杂度和空间复杂度。频繁模式就是对算法中结果进行描述,甚至做出进一步的刻画和限定,引导数据挖掘向结果进行靠近。频繁模式是什么 有效的可伸缩的频繁项集挖掘方法有哪些 如果数据之间存在潜在的关联关系,如何去挖掘 怎么从关联挖掘的结果进行相关分析 实际情况下基于约束的关联挖掘是怎么回事1.频繁模式...原创 2019-12-23 17:24:31 · 576 阅读 · 0 评论 -
数据立方体计算与数据泛化
总述:数据在经过预处理和装入数据仓库之后,下一步就是应用具体的算法来处理数据,找出其中有业务意义的部分。这一部分详细的介绍了数据挖掘相关算法的核心思想,常见问题算法的指导方向。如何根据数据立方体的情况选取合适的计算方法 完全立方体计算的多路数组聚集方法是怎么进行操作的 BUC是怎么计算冰山立方体的 动态星形树结构是如何用来计算冰山立方体的 快速预计算高维OLAP壳片段的处理 数...原创 2019-12-23 17:20:23 · 1247 阅读 · 0 评论 -
数据仓库与OLAP技术概述
总述:这部分主要介绍数据挖掘的实现问题,重点关注数据的组织形式、系统框架、相关的设计和名词介绍。不会涉及到非常具体的应用项目,可以当做基础知识科普。什么是数据仓库 联机事务处理系统(OLTP)和联机分析处理系统(OLAP)的区别有哪些 多维数据模型的建立 如何设计和构造数据仓库 三层数据仓库结构的案例 数据仓库后端工具应该提供的能力要在什么范围内 元数据存储库是什么 OLA...原创 2019-12-23 17:17:57 · 1516 阅读 · 0 评论 -
数据预处理
总述:数据预处理是数据挖掘的第一步,其中遇到的问题是非常多的,不过问题主要集中在数据的规模、规范程度上。只要合理的压缩数据的规模,提高数据的规范程度,数据预处理就是非常成功有效的。为什么要进行数据预处理 描述性数据汇总是怎么处理的 数据清理要怎么处理 数据集成和数据变换是怎么操作的 数据规约有哪些方法1.为什么要进行数据预处理答:数据挖掘的数据来源可能是来源于多个数据...原创 2019-12-23 17:14:32 · 511 阅读 · 0 评论 -
数据挖掘引言
总述:数据挖掘是一种数据处理技术,针对历史存量数据进行分析,通过描述趋势来帮助客户。数据挖掘产生的原因 什么是数据挖掘 可以对什么类型的数据进行挖掘 数据挖掘功能:可以挖掘什么类型的模式 数据挖掘的分类标准有哪些 数据挖局任务的原语有哪些 数据挖掘系统与数据系统的集成问题 数据挖掘的主要问题有哪些1.数据挖掘产生的原因答:数据系统的应用使得数据存量在一定规则下不...原创 2019-11-20 17:38:06 · 697 阅读 · 0 评论 -
SQL Cookbook系列 - 窗口函数补充
1.分组分组是把类似的行组织在一起的一种方式。在结果集中每一行都是一个组。组是非空的,每一个可以在结果集中显示的组都至少包含一个记录。每个组都与结果集中的其他组不同。对组内进行统计的count操作绝对不为0. 针对null值进行分组的时候,必须要做额外的处理来规避。在分组操作中,要对分组的标量中存在null值的情况做处理,最好分组的列都是非null值。对于select列表中的项,如果没有把...原创 2018-07-27 15:47:48 · 127 阅读 · 0 评论 -
SQL Cookbook 系列 - 若干另类目标
使用SQL server的pivot运算符创建交叉报表 使用SQLserver的unpivot运算符反转置交叉表报表 使用oracle的model子句转换结果集 从不固定位置提取字符串的元素 求一年包含的天数(oracle的另一种解决方案) 搜索字母数字混合的字符串 使用oracle把整数转换为二进制数 转置已分等级的结果集 给两次转置的结果集增加列头 在oracle中把标量子查...原创 2018-07-27 14:26:32 · 342 阅读 · 0 评论 -
SQL Cookbook 系列 - 高级查找
给结果集分页 跳过表中n行 在外联接中使用or逻辑 确定哪些行是彼此互换的 选择前n个记录 找到包含最大值最小值的记录 存取“未来”行 轮换行值 给结果分等级 抑制重复 1.给结果集分页db2/oracle/sqlserver:select sal from (select row_number() over(order by sal) as rn,salf...原创 2018-07-20 10:51:50 · 222 阅读 · 0 评论 -
SQL Cookbook 系列 - 分层查询
表示父-子关系 表示子-父-祖关系 创建表的分层视图 为给定父行找到所有的子行 确定哪些行是叶节点、分支节点及根节点 1.表示父-子关系db2/oracle/postgresql:select a.ename || ' works for ' || b.ename as infofrom emp a,emp b where a.leaderno=b.empno;mys...原创 2018-07-25 17:43:46 · 185 阅读 · 0 评论 -
SQL Cookbook 系列 - 报表和数据仓库运算
将结果集转置为一行 将结果集转置为多行 反向转置结果集 将结果集反向转置为一列 抑制结果集中的重复值 转置结果集以利于跨行计算 创建固定大小的数据桶 创建预定数目的桶 创建横向直方图 创建纵向直方图 返回未包含在group by中的列 计算简单的小计 计算所有表达式组合的小计 判别非小计的行 使用case表达式给行做标记 创建稀疏矩阵 按时间单位给行分组 对不同组...原创 2018-07-24 15:24:18 · 227 阅读 · 0 评论 -
SQL Cookbook 系列 - 范围处理
定位连续值的范围 查找同一组或分区中行之间的差 定位连续值范围的开始点和结束点 补充范围内丢失的值 生成连续数字值 1.定位连续值的范围select v1.project_id,v1.project_start,v1.project_endfrom V v1,V v2where v1.project_end=v2.project_start;Note:这个会用到,应用...原创 2018-07-18 17:54:56 · 235 阅读 · 0 评论 -
SQL Cookbook 系列 - 日期操作
确定一年是否是闰年 确定一年内的天数 从日期中提取时间的各部分 确定某个月的第一天和最后一天 确定一年内属于周内某天的所有日期 确定某月内第一个和最后一个周内某天的日期 创建日历 列出一年中每个季度的开始日期和结束日期 确定某个给定季度的开始日期和结束日期 填充丢失的日期 按照给定的时间单位进行查找 使用日期的特殊部分比较记录 识别重叠的日期范围 1.确定一年是否是闰...原创 2018-07-17 15:10:15 · 378 阅读 · 0 评论 -
SQL Cookbook 系列 - 日期运算
加减日、月、年计算两个日期之间的天数确定两个日期之间的工作日数目确定两个日期之间的月份数或年数确定两个日期之间的秒、分、小时数计算一年中周内各日期的次数确定当前记录和下一条记录之间相差的天数Note:这一部分直接开阔了我的眼界,原来在数据库中是可以进行日期运算的,而且还十分容易。1.加减日、月、年db2 : select hiredate - 5 day as hd_minus_5d, ...原创 2018-07-10 14:09:03 · 401 阅读 · 0 评论 -
oracle常用命令大全
一、ORACLE的启动和关闭 1、在单机环境下 要想启动或关闭ORACLE系统必须首先切换到ORACLE用户,如下 su - oracle a、启动ORACLE系统 oracle>svrmgrl SVRMGR>connect internal SVRMGR>startup SVRMGR>quit b、关闭ORACLE系统 oracle>svrmgrl转载 2013-03-24 16:20:57 · 525 阅读 · 0 评论 -
DB2 SQL自学笔记
db2与其他数据相比,不同的地方如下所示:数据类型来说: Decimal:一个固定位数的压缩的十进制数字。 10**31+1 to 10**31-1 Real:一个数字的32位bite近似值。 时间与日期:日期的格式: Format NameAbbreviationDate Form原创 2013-05-27 15:14:28 · 737 阅读 · 0 评论 -
闲话数据库(一)第一范式/第二范式
关系数据库理论解读笔记原创 2016-06-13 22:03:52 · 612 阅读 · 0 评论 -
闲话数据库(二)---第三范式/BCNF
第三范式:若关系模式R(U,F)中不存在这样的码X,属性组Y以及非主属性Z(Z不是Y的子集)使得Y函数依赖于X并且X不函数依赖于Y,Z函数依赖于Y成立,则关系模式R属于3NF。相当的绕口,并且不清醒的时候看它只会更加的想睡觉。但是把这个转变成另外一种表述:2NF只要消除了非主属性对码的传递函数依赖,则进阶到3NF.首先对最上面的数学表述形式分析:找不到这样的X,使得: X是码,Y一定是原创 2016-06-14 21:47:08 · 3165 阅读 · 0 评论 -
闲话数据库(三)---模式的分解
前面刚刚说过一些关系模式范式的东西,不过只是一些指导意见,并不是一些硬性规定。遵从了可以帮我们减少数据库维护的麻烦,不遵从只要自己能够继续维护下去也行。如果想进行规范化到第三范式,很明显要进行一些化简的操作,那么怎么进行去化简呢?现行通用的方式是进行模式分解,分解之后要达到以下的结果:1.分解必须保证分解出的所有属性组最后组合起来可以恢复到分解之前属性组集合2.这些原创 2016-07-07 00:02:10 · 2522 阅读 · 0 评论 -
oracle索引的事
索引是一种可选的与表相关的数据库对象,可以用于提高数据的查询效率。索引是建立在表列上的数据库对象,但是无论其物理结构还是逻辑结构均不依赖于表。数据库中引入索引的目的是提高对表中数据的查询速度。如果一个表没有建立索引,则对该表进行查询时会进行全表扫描。如果表中有索引,则在条件查询时数据库系统优先对索引进行查询。索引可以提高查询效率的原因是索引结构中保存了索引值及其相应记录的物理地址ROWID,并按照原创 2017-10-24 15:57:53 · 528 阅读 · 0 评论 -
SQL Cookbook 系列 - 检索记录
加粗部分均值得仔细研读,希望可以变得更好1.从表中检索所有的行和列select * from empselect name,job from emp下边的语句好于上面的,遵循我为人人,人人为我的原则2.利用where子句做条件,当某行在where子句判定为真时返回3.查找满足多个条件的列会用到多个子句,有and、or等, 当用到()时,里面的内容作为一个整体进行判定4.从表中检索部分列,要在sq...原创 2018-06-05 06:42:34 · 245 阅读 · 0 评论 -
SQL Cookbook 系列 -查询结果排序
以指定次序返回查询结果按多个字段排序按子串排序对字母数字混合的数据排序处理排序空值根据数据项的键排序1.以指定次序返回查询结果select ename,job from emp order by ename字符串值的字典序排列?网上找到的答案:ASCII码2.按多个字段排序select * from emp order by ename asc,job desc;3.按照子串排序db2,mysql...原创 2018-06-20 17:00:55 · 194 阅读 · 0 评论 -
SQL Cookbook 系列 -操作多个表
记录集的叠加组合相关的行在两表中查找共同的行在一张表中查找另一张表没有的值在一张表中查找与其他表不匹配的记录向查询中增加联接而不影响其他联接检测两表中是否有相同的数据识别和消除笛卡尔积聚集和联接聚集和外联接从多个有关联的表中返回关联信息不全的数据在运算和比较时使用null值1.记录集的叠加,union all可以将多个表中的行组合到一起, 当然这个也是有要求的,对应的列要做到数据类型一致,结果集...原创 2018-06-20 17:04:21 · 229 阅读 · 0 评论 -
SQL Cookbook 系列 - 元数据查询
列出模式中的表列出表的列列出表的索引列列出表约束列出没有相应索引的外键使用SQL来生成SQL在oracle中描述数据字典视图元数据在数据库中是用来描述其他数据库对象的数据,例如描述表,约束,索引等。这个按照我的理解来看,元数据是数据库管理数据库对象的记录。1.列出模式中的表查看在给出模式中所有已创建的表的清单:db2 : select tabname from syscat.tables wher...原创 2018-07-03 14:16:30 · 314 阅读 · 0 评论 -
SQL Cookbook 系列 -插入、更新和删除
插入新纪录插入默认值使用null代替默认值从一个表想另外的表中复制行复制表的定义一次向多个表中插入记录阻止对某几列插入在表中编辑记录当相应的行存在时更新用其他表中的值更新合并记录从表中删除所有记录删除指定记录删除单个记录删除违反参照完整性的记录删除重复的记录删除从其它表引用的记录1.插入新的记录 insert into dept (deptno,dname,loc) values (50,'de...原创 2018-07-03 14:29:31 · 233 阅读 · 0 评论 -
SQL Cookbook 系列 - 使用字符串
遍历字符串字符串文字中包含引号计算字符在字符串中出现的次数从字符串中删除不需要的字符将字符和数字数据分离判别字符串是不是字母数字型的提取名字的大写首字母缩写按字符串中部分内容排序安字符串中的数值排序根据表中的行创建一个分隔列表将分隔数据转换为多值in列表按字母顺序排列字符串判别可作为数值的字符串提取第n个分隔的子串分解IP地址1.遍历字符串遍历字符串在数据库中的开销是很大的,因为数据库中没有循环操...原创 2018-07-10 14:02:04 · 193 阅读 · 0 评论 -
SQL Cookbook 系列 - 使用数字
计算平均值求某列中的最小值最大值对某列的值求和求一个表的行数求某列值的个数生成累积和生成累乘积计算累积差计算模式计算中间值求总和的百分比对可控列做聚集计算不包含最大值和最小值的均值把字母数字串转换为数值更改累积和中的值1.计算平均值select deptno,avg(sal) as avg_sal from emp group by deptno;2.求某列中的最小值最大值select deptn...原创 2018-07-10 14:05:56 · 209 阅读 · 0 评论 -
mysql 基础知识总结
1:使用SHOW语句找出在服务器上当前存在什么数据库:mysql> SHOW DATABASES;2:2、创建一个数据库MYSQLDATAmysql> CREATE DATABASE MYSQLDATA;3:选择你所创建的数据库mysql> USE MYSQLDATA; (按回车键出现Database changed 时说明操作成功!)4:查看现在的数据库中存在什么表转载 2013-03-24 16:08:51 · 617 阅读 · 0 评论