Data mining
文章平均质量分 82
尤曦
这个作者很懒,什么都没留下…
展开
-
大型数据库的分析技巧-统计学基础
1.数据的性质1.1数据分类数据的值可以分为俩大类,一类是绝对的值(kategorisch像一些质量的概念),另一类是数值(像数字)kategorisch又可以分为两类,其一为名词话的值(即不可排序的值,如颜色),其二为顺序值(即可存在顺序的值,如小numerisch也可分为俩类,即连续值和离散值.1.2数据的维度一维数据:(univariate data):如年龄多维翻译 2015-10-21 04:45:01 · 736 阅读 · 0 评论 -
R Sprache
先看一下R能干什么df <- mtcars?mtcarsnames(df)head(df)nrow(df)summary(df)hist(df$hp)plot(df$hp,df$qsec)cor(df$hp,df$qsec)cor(df$cyl,df$qsec)df$hpPerCyl <- df$hp/df$cyldf[order(df$hpPerCyl),]head(df[order翻译 2016-02-25 15:14:28 · 300 阅读 · 0 评论 -
Evaluation
Training and Testing引言Classification的一般过程如下: 1.选择一个Classifier(Modell) 2.根据已有信息对这个Classifier进行训练 3.把Classifier使用与对新的数据的预测 与数据库中一般如下: 目标:根据前n个属性,对第n+1个属性进行推测 训练数据是已有的n+1个属性的数据 经典的方法比如有建立决策树(Entsch翻译 2016-02-25 15:01:28 · 1054 阅读 · 0 评论 -
机器学习-非监督学习(Unüberwachte Lernverfahren)+大型数据库:Clustering-1
把数据库分析的Clustering加到这里来吧-为完成哦内容一览1.动机 2.k-means聚类(经典聚类) 3.多级聚类 4.COBWEB(Begriffliche Balungen)和概念聚类 5.前景动机动机1.训练集的收集和分类相当费力 2.另外训练时那么多量要计算也是相当麻烦的 (Engineering z.B:Merkmalsberechnung der Daten kann翻译 2016-01-15 07:33:02 · 2889 阅读 · 0 评论 -
机器学习-非监督学习(Unüberwachte Lernverfahren)+大型数据库:Clustering-2
概念聚类(Clustering mit kategorischen Attributen)我们至今为止看到的聚类的方法都只适用于对应的属性值是数字的情况,但是当属性不是数字时,我们又该怎么做呢???比如购物车分析时,对应的属性值的类型就是布尔型的,他对应的值域是{true, false}。而一般的情况下属性对应的值域是一个有限值的集合。比较经典聚类和概念聚类在经典聚类中: 1.相识性取决于数值的相翻译 2016-01-17 20:10:53 · 668 阅读 · 0 评论 -
大型数据库分析-关联式规则(Associaton-Rules)-1
引言目的:是找到所有的关联式规则(Association-Rules),而不是检测一个关联式规则是否存在。 下面会讲到的内容: 1.Association-Rules的基本概念 2.Apriori-Algorithmus 3.优化Apriori 4.FP-trees 5.Finden häufiger Muster in Zeitreihen//暂时不知是干嘛用得 6.有约束条件的As翻译 2016-01-21 03:45:49 · 1415 阅读 · 0 评论 -
大型数据库分析-R语言
先看一下R能干什么df <- mtcars?mtcarsnames(df)head(df)nrow(df)summary(df)hist(df$hp)plot(df$hp,df$qsec)cor(df$hp,df$qsec)cor(df$cyl,df$qsec)df$hpPerCyl <- df$hp/df$cyldf[order(df$hpPerCyl),]head(df[order翻译 2015-11-18 00:08:46 · 669 阅读 · 0 评论 -
大型数据库分析技巧-统计学基础2
3.简单概率论3.1 概率空间(Wahrscheinlichkeitsraum)三元式:(Ω,F,P)(\Omega,F,P) Ω:\Omega:结果集合(Ergebnismenge)//指可能出现的结果如掷骰子可能出现的结果是1到6 F⊆2Ω: \subseteq 2^\Omega :事件域(Raum der Ereignisse)//表示感兴趣的事件的集合比如掷骰子得出结果为基数 P(Wa翻译 2015-10-30 20:37:37 · 635 阅读 · 0 评论 -
大型数据库的分析技巧-前言
其实就是数据挖掘(data mining).目标是从大量的具有复杂结构的数据中,通过一定的方法高效的获取目标数据或者根据原有数据作出推测,判断.举两个例子:1.错误定位(Fehlerlokalisierung) 没有绝对不会出错的软件,但调试不仅费时而且十分昂贵.通过数据挖掘则可以实现错误自动定位.(具体例子还没看懂,懂了再补)2.预测维护(PredictiveMaintenance) 给翻译 2015-10-21 00:45:22 · 398 阅读 · 0 评论 -
大型数据库分析-关联式规则(Associaton-Rules)-2
带有约束条件的Association Rules(Association Rules in Gegenwart von Constraint)就是字面意思,这回不要求找出全部的frequent itemsets了,而是要求找出满足特定要求的(Constraint)的frequent itemsets。除此之外,我们还希望通过加入限定条件能够缩短我们的搜索时间。举个例子,对于购物车分析,我们可以加上额翻译 2016-02-25 15:25:56 · 852 阅读 · 0 评论