linglingbaby-CSDN博客

转载 §0 多元回归分析原理

回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。　　回归分析主要解决以下几个方面的问题:(1) 确定几个特定的变量之间是否存在相关关系, 如果存在的话, 找出它们之间合适的数学表达式;(2) 根据一个或几个变量的值, 预测或控制另一个变量的取值,

2013-05-09 12:38:44 1287

转载 §7 非线性回归模型

前面讨论的回归分析与逐步回归模型都假定是线性的, 而在自然科学中我们也常会遇到非线性回归模型, 在非线性回归模型中又可分为两种类型: 　　一种类型是可以通过变量变换化成为线性模型, 然后按线性模型加以解决:　　例如, ,　　作变量变换: 令, , 于是有　　　　将视为自变量, 则这时就可以看成是变量的线性函数, 这样就可应用线性模型计算参数。

2013-05-09 12:36:24 2019

转载 §6 双重筛选逐步回归

１、问题的提出　　考察自变量对因变量的影响时, 可能其中有些自变量如只对因变量有影响, 而另外一些自变量则对其它因变量有影响, 多对多逐步回归无法判断哪些自变量对哪些因变量有影响。实际情况有时可能是一部分因变量与一部分自变量有密切关系, 而另一部分因变量与另一些自变量有密切关系等等。而与不会有共同的变量, 但与可能有共同的变量, 因为一个自变量可能会对许多不同的甚至全部

2013-05-09 12:35:25 2119

转载 §5 多对多线性回归数学模型

前面介绍的多元线性回归分析是一个因变量对多个自变量的线性回归问题, 现在进一步介绍多个因变量对多个自变量的线性回归问题, 即“多对多”的回归问题。　　设有个自变量和个因变量之间存在有线性回归关系:　　　　, (5.1)其中称为回归系数, 称为误差, 它是一个随机变量。　　如果略去误差项, 则有关系式　　　　, , (5.2)(5.2)式称为多个因

2013-05-09 12:34:11 4086

转载 §4 逐步回归分析

１、逐步回归分析的主要思路　　在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量

2013-05-09 12:33:15 3125

转载 §3 回归方程及回归系数的显著性检验

１、回归方程的显著性检验(1) 回归平方和与剩余平方和　　建立回归方程以后, 回归效果如何呢？因变量与自变量是否确实存在线性关系呢？这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化规律。的每次取值是有波动的, 这种波动常称为变差, 每次观测值的变差大小, 常用该次观侧值与次观测值的平均值的差(称为离差)来表示, 而全部次观测值的总变差可

2013-05-09 12:30:27 22509

转载 §2 回归系数的最小二乘估计

设分别为的最小二乘估计值, 于是的观测值　　　　, , (2.1)其中为误差的估计值, 称为残差或剩余。令为的估计值, 则有　　　　, (2.2)　　　　, , (2.3)(2.3)式表示实际值与估计值的偏离程度。欲使估计值与实际值拟合的最好, 则应使残差平方和　　　　达到最小, 为此, 我们可以应用微分求极值原理

2013-05-09 12:27:46 7800

转载 §1 一对多线性回归分析的数学模型

设随机变量与个自变量存在线性关系:　　　　, (1.1)(1.1)式称为回归方程, 式中为回归系数, 为随机误差。　　现在解决用估计的均值的问题, 即　　　　,且假定, , 是与无关的待定常数。　　设有组样本观测数据:　　　　其中表示在第次的观测值, 于是有:　　　　, (1.2)其中为个待定参数, 为

2013-05-09 12:24:44 1765

转载 hadoop中常出现的错误及解决办法

本文转自：http://datalife.iteye.com/category/1308981：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。

2013-04-23 14:08:10 742

转载大数据下的数据分析平台架构

本文转自：http://www.programmer.com.cn/7617/随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求。作为一家互联网数据分析公司，我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压

2012-03-13 16:41:56 797

转载 weka –Apriori算法关联规则挖掘详解

本文转自：http://blog.csdn.net/haosijia929/article/details/5596939一、Apriori算法参数含义本次共进行了9组实验，使用了weka安装目录data文件夹下的contact-lenses.arff数据。 ToolsàArffViewer，打开contact-lenses，可以看到实验数据contact-l

2012-02-28 09:50:19 15496 4

转载用HASH表进行海量数据搜索

提一个简单的问题，如果有一个庞大的字符串数组，然后给你一个单独的字符串，让你从这个数组中查找是否有这个字符串并找到它，你会怎么做？有一个方法最简单，老老实实从头查到尾，一个一个比较，直到找到为止，我想只要学过程序设计的人都能把这样一个程序作出来，但要是有程序员把这样的程序交给用户，我只能用无语来评价，或许它真的能工作，但...也只能如此了。最合适的算法自然是使用HashTable（哈希表），先

2012-02-24 11:13:13 688

转载大道至简，职场上做人做事做管理

看着很好，就转过来了原文地址：http://www.cnblogs.com/JimmyZhang/archive/2011/08/20/2146390.html大道至简，越是根源和基本的问题，道理实际上越简单。关于如何做人、做事、做管理的书很多，我看得不多，但是我觉得这些书更多是侧重技术和实现细节上的，而很少从人的思想和观念去讲。实际上，从根本上去说，如何做人做事是世界观的问题，也是一

2012-02-22 14:13:38 490

转载机器学习是什么

这篇文章转自：http://hi.baidu.com/macula7/blog/item/8a3f22cd9587f81a00e92829.html里面称作者是周志华，我无从考证，只是转载。个人感觉写得很不错。转载至此。机器学习现在是一大热门，研究的人特多，越来越多的新人涌进来。不少人其实并没有真正想过，这是不是自己喜欢搞的东西，只不过看见别人都在搞，觉着跟大伙儿走总不会吃亏吧。问

2012-02-21 15:04:37 522

转载给生活的一课：那些你不知道的事情

英文原文：Life Lessons: What are important things and advice to know that people generally aren't told about?　　作者简介：Marcus Geduld, Shakespearean director, computer programmer, teacher, writer, likes

2012-02-20 17:12:22 949

转载海量数据处理算法设计

本文将向您讲述诸多数据处理面试题以及方法的总结。第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐

2012-02-10 15:09:05 501

转载海量数据处理分析(转载)

转载自:http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx笔者在实际工作中，有幸接触到海量的数据处理问题，对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面：一、数据量过大，数据中什么情况都可能存在。如果说有10条数据，那么大不了每条去逐一检查，人为处理，如果有上百条数据，也可以考虑，如果数据上到千万级别，

2012-02-09 14:48:45 437

转载 java集合类总结

对象的集合如果程序的对象数量有限，且寿命可知，那么这个程序是相当简单的。数组数组与其它容器的区别体现在三个方面：效率，类型识别以及可以持有primitives。数组是Java提供的，能随机存储和访问reference序列的诸多方法中的，最高效的一种。数组是一个简单的线性序列，所有它可以快速的访问其中的元素。但是速度是有代价的；当你创建了一个数组之后，它的容量就固定了，而且在其生命周期

2011-12-15 09:04:17 365

转载读书笔记：遇见未知的自己

灵修这个词是我在思考和学习敏捷个人时接触到的术语，《少有人走的路》是一本心智旅程的灵修类书籍，在敏捷个人社区有位敏友给大家推荐了另一本灵修类书籍《遇见未知的自己》，我看完后觉得还不错，所以在这里与大家分享一下。　　以前看过一些IT书籍通过故事情节来写的，都感觉不怎么喜欢，曾经有编辑建议我写书也按照这种方式来写，再加上很多案例，坦白说我最讨厌这种方式了，写了一大本书，有用的没有多少页，我喜欢

2011-11-23 11:35:25 1001

转载风雨20年：我所积累的20条编程经验

编者按：原文作者乔纳森·丹尼可（Jonathan Danylko）是一位自由职业的web架构师和程序员，编程经验已超过20年，涉足领域有电子商务、生物技术、房地产、医疗、保险和公用事业。正如乔纳森在文中所言，本文适合刚毕业的大学生和刚入门的程序员。如果你已是高级开发人员，或许你能在本文中看到自己的身影。　　从11岁时，我就一直在编程，并且一直都很喜欢技术和编程。这些年来，我

2011-11-11 16:31:45 468

转载 svm(libsvm)在文本分类中的应用

预备知识：1）svm：svm（support vector machine）即支持向量机，是一种机器学习算法，2000年左右开始火爆，被认为是（2005年论文上写的）目前分类算法中最好的二个之一（还有一个是boost方法，即使用多个低分辨率的分类器线性组合成一个高分辨率的模式）；根据它的原理，个人认为它和人工神经网络的计算公式本质一样，虽然它们的类切分方式不一样。至少svm是完全的基于超平面

2011-11-09 09:45:46 1081

转载 Weka中常见问题解答列表

1.关于聚类中距离计算的问题Q:Hi...if some of my variables are catogoricals...some are numeric............to do cluster analysis, I should use Gower's distance ........am i right? Is there other options

2011-11-08 09:46:42 1374

转载二叉树的深度优先和广度优先遍历

图的深度优先搜索法是树的先根遍历的推广，它的基本思想是：从图G的某个顶点v0出发，访问v0，然后选择一个与v0相邻且没被访问过的顶点vi访问，再从vi出发选择一个与vi相邻且未被访问的顶点vj进行访问，依次继续。如果当前被访问过的顶点的所有邻接顶点都已被访问，则退回到已被访问的顶点序列中最后一个拥有未被访问的相邻顶点的顶点w，从w出发按同样的方法向前遍历，直到图中所有顶点都被访问。图的广度优先

2011-11-08 09:40:27 642

转载数据挖掘之决策树分类模型

数据库内容丰富，蕴藏大量信息，可以用来作出智能的商务决策。分类和预测是两种数据分析形势，可以用于提取描述重要数据类的模型和预测未来的数据趋势。数据分类（data classfication）是一个两步过程。第一步，建立一个模型，描述预定的数据类集或概念集。通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类，由一个称作类标号属性（class label a

2011-11-08 09:25:55 3235

转载一种科学的思维方式

微软前总裁高群耀说过一句话让我印象深刻，大意是我们努力了那么多年，取得了不小的成就，我相信我们一定做对了一些事情。我觉得能够做对事情的一个重要前提是，我们想对了一些事情，而要想对事情就需要掌握一些正确的思考方法。巴菲特和芒格一定不是靠掷筛子下注的，他们比一些人更接近真相的最重要原因是因为他们掌握了更正确的思维方式。我个人将思考问题分成7个步骤。1．正确的定

2011-10-24 16:28:49 2325

转载商业智能BI的三个层次-----数据报表、数据分析、数据挖掘

经过几年的积累，大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作，最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process，在线事务

2011-10-17 16:39:02 915

转载这样的职业理想相当靠谱：成为数据分析师

我的职业理想（作者：和君商学院四届学子）我小时候的理想是将来做一名数学家，可惜长大了发现自己天赋不够，理想渐行渐远，于是开始考虑现实，开始做一些人生规划，我一直在思考将来从事何种职业，专注什么样的领域，重新定义着自己的职业理想。我现在的职业理想，比

2011-10-12 14:13:57 926

转载 Java中Map相关的快速查找算法与唯一性探讨

在对《Set和hashCode()》的一篇原创文章写完后，由于对自己的一些论断产生了模糊和怀疑，因此又对Set进行了一些研究，形成本篇。在Set的使用场景中，我们不外乎看中了她存储数据的唯一性，即不能存储重复值，这在某些应用场合下是很必要的一个特性。那么从更深一层来考

2011-10-10 11:59:46 1961

转载在Java中运用Hashtable

Hashtables提供了一个很有用的方法可以使应用程序的性能达到最佳。 Hashtables（哈希表）在计算机领域中已不是一个新概念了。它们是用来加快计算机的处理速度的，用当今的标准来处理，速度非常慢，而它们可以让你在查询许多数据条目时，很快地找到一个特殊的条目

2011-09-27 16:07:58 358

转载加班，谁之过？

下班的时候，我们同事之间经常会开玩笑的说：“咦，你怎么今天不用加班了呢？”。是的，在软件公司里，“加班”似乎是理所当然的事情。好像不加班只能说明你的工作任务很轻松，或者你的工作没有做好，或者你有意在拖沓任务，等等。因此，形成了一个不好的氛围，加班是为了避免他人的言语在“加班”。

2011-09-22 17:51:04 474

转载挖潜无极限---数据挖掘技术与应用热点扫描

转自：http://bbs.xml.org.cn/blog/more.asp?name=topcio&id=16699 “我们把世界看成数学，并且把你也看成数学”——用这句话来说明数据挖掘技术的复合性和应用的广泛性似乎再好不过。如今，虽然一些行业在应用这一技术上仍然缺乏

2011-09-13 15:50:31 1364

转载 WEKA编写新学习方案

1. 编写新学习方案如果用户需要实现一个Weka所没有的特殊目的的学习算法,或者用户正在进行机器学习的研究,并且想试验一个新的学习方案,或者用户只是想通过亲自动手编程,了解更多有关一个归纳算法的内部运作,本节用一个简单的范例演示在编写分类器时,如何充分利用Wek

2011-09-13 14:11:29 1034

转载引用 Weka学习五（ROC简介）

本文转自：http://liouwei20051000285.blog.163.com/blog/static/252367420091016104545884/ 今天我们来介绍一下ROC（Receiver operating characteristics

2011-09-07 17:09:24 2396

原创亚里士多德法则

（一）　　　　有三个程序员在一起发现了一个错误。　　　　第一个程序员是一个新手，他马上表态：“不好意思，我马上检查一下，可能是我哪里搞错了。” 　　　　第二个程序员是个老油条，他说：“绝对不是我的错，我敢保证是微软的bug。微软也太不负责了

2011-09-01 17:22:45 1019

转载内存计算掘金社交网络

本文转自：http://content.businessvalue.com.cn/post/4352.html?utm_source=sina&utm_medium=weibo&utm_campaign=businessvalue 随着社交网络的发展及普及，其拥有的海量数

2011-08-31 14:29:34 869

转载算法的力量李开复__转自李开复网易博客

算法是计算机科学领域最重要的基石之一，但却受到了国内一些程序员的冷落。许多学生看到一些公司在招聘时要求的编程语言五花八门，就产生了一种误解，认为学计算机就是学各种编程语言，或者认为，学习最新的语言、技术、标准就是最好的铺路方法。其实，大家被这些公司误导了。编程语言虽然该学，但是学

2011-08-30 15:28:43 582

转载 svm的一些理解（网上收集整理）

机器学习(Machine Learning, ML)的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计，使它（这种关系）能够对未知输出做出尽可能准确地预测。机器学习至今没有一个精确的公认的定义。作为人工智能(Artificial Intelligence, AI)的一

2011-08-30 13:59:22 1252

转载 synchronized的4种用法

本文转自百度百科。 1.方法声明时使用,放在范围操作符(public等)之后,返回类型声明(void等)之前.即一次只能有一个线程进入该方法,其他线程要想在此时调用该方法,只能排队等候,当前线程(就是在synchronized方法内部的线程)执行完该方法后,别的线

2011-08-24 15:49:06 413

原创 Eclipse的代码追踪功能

最近在使用java编写算法，对其IDE工具MyEcilpse一头雾水，从网上找了些资料，先从代码追逐开始吧。资料出自：http://hi.baidu.com/xproduct/blog/item/551f6cf448ef1cdaf2d3853d.html在使用J

2011-08-22 17:16:25 1247

转载 Weka开发 —KMeans源码介绍

本文转载自：http://www.chinakdd.com/portal.php?mod=view&aid=124975 以前介绍的都是分类的内容，这一次介绍聚类，以最简单的SimpleKMeans源码为例。分类中训练一个分类器是用buildClas

2011-08-22 16:38:25 1069

数据挖掘技术及其应用

机器学习之weka简介

空空如也