关闭

领域模型和设计类图的区别

摘要       本文通过对一个“学生选课系统”示例的简要分析与设计,说明UML图之一类图的两种作用及存在形式,以期借此澄清有些朋友可能对类图存在的误解与困惑。 前言       在OOA与OOD大行其道的今天,UML在系统分析与设计中得到了广泛的采用。而在UML的9种图中,类图是最重要也是使用最普遍的图之一。但是,在与一些朋友,特别是初学者的聊天当中,我发现很多朋友对类图的作用及使用方...
阅读(96) 评论(0)

中文情感分析语料库

中文情感分析语料库 http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93 中文情感分析的语料库非常少,这五个中文语料库是我在网上的搜集的。     ...
阅读(60) 评论(0)

K-Means聚类算法以及扩展算法K-Modes、K-Prototype

k-means聚类算法是一种简单易行,时间复杂度低的聚类算法,特别是针对大规模的数据集。但其只能处理数值属性限制了他的应用范围,它的具体算法步骤如下: 1.确立最终聚类处理得到簇的个数,如果有先验知识,如知道一个数据集为有3类,则可设k=3。如果不清楚,有一些指导性方法可确定估计值; 2.选取k条初始记录作为质心,k条记录的欧式具体尽量大,说明记录的相关性低,提高聚类效果; 3....
阅读(90) 评论(0)

数据挖掘十大算法--K-均值聚类算法

一、相异度计算  在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。       设 ,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:...
阅读(56) 评论(0)

HIVE-ERROR 1045 (28000): Access denied for user 'root'@'%' (using password: YES)

在安装Hive的时候报错: org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version. Underlying cause: java.sql.SQLException : Access denied for user 'root'@'master.hadoop' (using passwor...
阅读(62) 评论(0)

IDEA下Maven依赖包下载不下来的问题解决方案

在Mac下使用IDEA作为开发环境时,如果遇到maven依赖的包不能下载,可以看看是不是其setting.xml文件配置的问题,注意默认情况下,其指向的镜像服务器是否是http://repo.maven.apache.org/maven2。 设置方法,可以通过右键项目找到maven选项,open setting.xml选项进行时修改配置文件。 xml version="1...
阅读(101) 评论(0)

Bagging与随机森林算法原理小结

在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。     随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力...
阅读(95) 评论(0)

岭回归原理及代码实现

岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。 对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大...
阅读(158) 评论(0)

xgboost原理

1.序   距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboost相关,于是重新写一下这篇文章。   关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT、论文、一些网络资源,希望对xgboost原理进行深入理解。(笔者在最后的参考文献中会给出地址) 2.xgboost vs gbdt  ...
阅读(130) 评论(0)

梯度提升树GBDT原理

1.模型 提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型:  其中,表示决策树;为决策树的参数;M为树的个数 2.学习过程 回归问题提升树使用以下前向分布算法: 在前向分...
阅读(67) 评论(0)

Earth Mover's Distance (EMD)距离

原文: http://d.hatena.ne.jp/aidiary/20120804/1344058475 作者: sylvan5 翻译: Myautsai和他的朋友们(Google Translate、shuanger、qiu) 本文将讨论Earth Mover’s Distance (EMD),和欧式距离一样,它们都是一种距离度量的定义、可以用来测量某两个分布之间的距离。EMD主...
阅读(102) 评论(0)

隐马尔科夫模型(二)

作者:henry 链接:https://www.zhihu.com/question/20962240/answer/64187492 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 隐形马尔可夫模型,英文是 Hidden Markov Models,所以以下就简称 HMM。 既是马尔可夫模型,就一定存在马尔可夫链,该马尔可夫链服从马尔可夫性质:即无...
阅读(78) 评论(0)

隐马尔科夫模型(一)

什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。 熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能...
阅读(86) 评论(0)

决策树的特性及优缺点

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。         决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。         构建决策树采用贪心算法,只考虑当前纯度差最大的...
阅读(95) 评论(0)

Java中为什么要使用内部类

一、前言 关于Java的内部类,要说的东西实在太多,这篇博文中也无法一一具体说到,所以就挑些重点的讲。关于内部类的使用,你可能会疑问,为什么我们要使用内部类?为了回答这个问题,你需要知道一些关于内部类的重点。所以本篇文章首先介绍了一些关于内部类的一些与众不同的地方,后面再解答为什么我们要使用内部类这个问题。各位看官,文章稍微有点长,深吸一口气。来,我们开始吧! 二、内部类定义...
阅读(49) 评论(0)

java中的匿名内部类总结

匿名内部类也就是没有名字的内部类 正因为没有名字,所以匿名内部类只能使用一次,它通常用来简化代码编写 但使用匿名内部类还有个前提条件:必须继承一个父类或实现一个接口   实例1:不使用匿名内部类来实现抽象方法 1 2 3 4 5 6 7 8 9 10 11 12 13 ...
阅读(50) 评论(0)

关于协方差矩阵的理解

在《主成分分析》中,我们用到了协方差矩阵,但当时并没有对其进行深入的讨论。为此,本文将针对协方差矩阵做一个详细的介绍,其中包括协方差矩阵的定义、数学背景与意义以及计算公式的推导。...
阅读(65) 评论(0)

面向对象三大基本特性,五大基本原则

透切理解面向对象三大基本特性是理解面向对象五大基本原则的基础. 三大特性是:封装,继承,多态   所谓封装,也就是把客观事物封装成抽象的类,并且类可以把自己的数据和方法只让可信的类或者对象操作,对不可信的进行信息隐藏。封装是面向对象的特征之一,是对象和类概念的主要特性。 简单的说,一个类就是一个封装了数据以及操作这些数据的代码的逻辑实体。在一个对象内部,某些代码或某些数据可以是私有...
阅读(47) 评论(0)

java面试题(一)

问题1:如果main方法被声明为private会怎样? 答案: 能正常编译,但运行的时候会提示”main方法不是public的”。 问题2:Java里的传引用和传值的区别是什么? 传引用是指传递的是地址而不是值本身,传值则是传递值的一份拷贝。 问题3:如果要重写一个对象的equals方法,还要考虑什么? hashCode。 问题4:Java的”一次编写,处...
阅读(48) 评论(0)

ROC和AUC介绍以及如何计算AUC

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里](http://bubblexc.com/y2011/148/)。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。 # ROC曲线 需要提前说明的是,我们这里只...
阅读(33) 评论(0)
96条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:24589次
    • 积分:588
    • 等级:
    • 排名:千里之外
    • 原创:24篇
    • 转载:72篇
    • 译文:0篇
    • 评论:4条
    最新评论