数据挖掘
文章平均质量分 86
huangleijay
研发工程师,在二手交易、云平台、云搜索和长视频领域工作多年,略有所悟。
展开
-
最近邻算法(KNN)
K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然原创 2013-09-11 16:03:06 · 952 阅读 · 0 评论 -
使用Weka进行数据挖掘
原文地址:使用Weka进行数据挖掘作者:招展如桦1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。Weka的转载 2014-04-25 16:39:29 · 604 阅读 · 0 评论 -
R的常用函数全面总结
前言:关于R在R的官方教程里是这么给R下注解的:一个数据分析和图形显示的程序设计环境(A system for data analysis andvisualization which is built based on S language.)。R的源起R是S语言的一种实现。S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主原创 2014-04-25 16:39:53 · 2885 阅读 · 0 评论 -
R中设置图形参数--函数par()…
原文地址:R中设置图形参数--函数par()详解作者:菜鸟的成长 R有着非常强大的绘图功能,我们可以利用简单的几行代码绘制出各种图形来,但是有时候默认的图形设置没法满足我们的需要,甚至会碰到各种各样的小问题:如坐标轴或者标题出界了,或者图例说明的大小或者位置遮挡住了图形,甚至有时候默认的颜色也不能满足我们的需求。如何进行调整呢?这就用到了“强大”的函数par()。我们可以通过设定函数par转载 2014-04-25 16:41:30 · 1837 阅读 · 0 评论 -
matlab画柱状图
原文地址:matlab画柱状图作者:雪后DE阳光 论文中需要画图进行比较,感觉还是matlab画起来比较方便,先把自己画的图及matlab代码放上。 y=[300311;390 425; 312 321; 250 185; 550 535; 420 432; 410 520;]; b=bar(y); gridon; ch =get(b,'children');转载 2014-04-25 16:41:09 · 5761 阅读 · 0 评论 -
Weka学习(1)-数据格式
原文地址:Weka学习(1)-数据格式作者:招展如桦 Weka学习(1)-数据格式 巧妇难为无米之炊。首先我们来看看WEKA所用的数据应是什么样的格式。跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是图1那样的一个二维的表格。f1.jpg (34.05 KiB) 被浏览 32722 次图1这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Insta转载 2014-04-25 16:39:32 · 637 阅读 · 0 评论 -
LaTex辅谈:LaTeX命令速查手册
##转自LaTeX3 还有其他篇| 一个英文文档的例子 | +----------------------+一个英文文档的例子,保存为:**.tex\documentstyle{article} %使用article格式\topmargin=0pt %以下页面设置\oddsidemargin=原创 2014-04-25 16:41:38 · 2111 阅读 · 0 评论 -
怎么样用AIC和SC准则判断滞…
原文地址:怎么样用AIC和SC准则判断滞后阶数作者:syzbbw66怎么样用AIC和SC准则判断滞后阶数ADF Test Statistic-0.480303 1% CriticalValue* -4.7315 5% CriticalValue -3.7611 10% Critical Value -3.3228 *Ma转载 2014-04-25 16:40:36 · 19812 阅读 · 0 评论 -
R: 关于“set.seed()”
2013-05-04 08:22:33计算机并不能产生真正的随机数,如果你不设种子,计算机会用系统时钟来作为种子,如果你要模拟什么的话,每次的随机数都是不一样的,这样就不方便你研究,如果你事先设置了种子,这样每次的随机数都是一样的,便于重现你的研究,也便于其他人检验你的分析结果。http://bbs.pinggu.org/thread-336973-1-1.htmlhttp://b原创 2014-04-25 16:39:37 · 988 阅读 · 0 评论 -
转:matlab+spider+weka
转自数据挖掘青年 http://blogger.org.cn/blog/more.asp?name=DMman&id=27375一 spider主页http://www.kyb.mpg.de/bs/people/spider/ (也可以在google上搜索spidermatlab得到),关于它的介绍可以参考网址资料二使用时为matlab+spider+Weka;因为spider中的一些原创 2014-04-25 16:39:25 · 694 阅读 · 0 评论 -
数据挖掘-斯坦福大学公开课-笔记
上它的地址:http://v.163.com/special/opencourse/machinelearning.html第一课:监督学习:比如一组癌症数据,拿到数据的时候我就知道它是正常的基因还是癌症基因,然后分类的时候我能正确的,我能将一个数据映射到其中,并且根据其在哪个分类中作出判断此基因是正常的or癌症的---我目前做的实验大多数是这个,下载的数据都加上了标签!无监督学习:原创 2013-09-11 16:06:05 · 1045 阅读 · 0 评论 -
协方差
原文地址:协方差作者:疯丫头关于协方差矩阵的概念及意义 源地址:http://www.pinkyway.info/2010/08/31/covariance/ 今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵。统计学的基本转载 2013-09-11 16:05:58 · 671 阅读 · 0 评论 -
数据分析与挖掘的企业应用路…
原文地址:数据分析与挖掘的企业应用路在何方(谈分水岭)作者:wjljy123-----------前言---------近期有不少朋友感言数据分析和挖掘应用的商业价值问题,一是说数据分析和挖掘在企业,如果只有知识发现,知识应用没有搞起来,企业还是没有体会到数据的价值;二是说数据分析和挖掘,是否看在多么牛的互联网巨头工作的背景,还是要有扎实的数据变现能力? 第一个问题,还得从第三方数据分析转载 2013-09-11 16:05:56 · 699 阅读 · 0 评论 -
P-value
先看下面例子:先模拟产生50个服从N(0,1)的样本,这里要用到下面的语法COMPUTE x = RV.NORMAL(0,1) .EXECUTE.如果要检验这50个x值的样本是否服从正态分布,可作One-Sample Kolmogorov-Smirnov TestNPARTESTS/K-S(NORMAL)= x /MISSING ANALYSIS.结果是Kolmogorov-Smirno原创 2013-09-11 16:05:25 · 1226 阅读 · 0 评论 -
R语言常用函数参考
摘要: 基本 一、数据管理vector:向量 numeric:数值型向量logical:逻辑型向量 character;字符型向量 list:列表 data.frame:数据框 c:连接为向量或列表length:求长度 subset:求子集 seq,from:to,sequence:等差 ...基本一、数据管理vector:向量 numeric:数值型向量 log原创 2013-09-11 16:05:14 · 1252 阅读 · 0 评论 -
CDM、LDM与PDM的区别
概念数据模型设计与逻辑数据模型设计、物理数据模型设计是数据库及数据仓库模型设计的三个主要步骤。在数据仓库领域有一个概念叫conceptual data model,中文一般翻译为“概念数据模型”。概念数据模型是最终用户对数据存储的看法,反映了最终用户综合性的信息需求,它以数据类的方式描述企业级的数据需求,数据类代表了在业务环境中自然聚集成的几个主要类别数据。概念数据模型的内容包括重要的实原创 2013-09-11 16:03:13 · 849 阅读 · 0 评论 -
R引入其他统计软件数据的扩…
原文地址:R引入其他统计软件数据的扩展包是foreign作者:生物统计R引入其他统计软件数据的扩展包是foreign,在主窗口命令提示符下键入“library(foreign)”后,R软件载入“foreign”模块,可以读入Minitab, S, SAS, SPSS, Stata, Systat, dBase等软件相应格式的数据:读入epi5~6的数据命令为read.epii转载 2013-09-11 16:05:27 · 775 阅读 · 0 评论 -
Latex使用
1:$$不要乱用,这个会将文本环境转换为数学环境,基本上不要在\equation中使用,要想使某一块公式成为组合尽量使用{}2: 步骤:1. 用图形软件输出 EPS 格式的文件,或PDF格式的图形2. 在源文件的导言中加入下面代码,这样下面几种类型的图都可以插入 \ifCLASSINFOpdf \usepackage[pdftex]{graphicx} \gra原创 2014-04-25 16:41:16 · 1318 阅读 · 0 评论