自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 ubuntu connect 是 errno 为111 115 101 22 错误分析

22:参数错误,比如ip地址不合法,没有目标端口等101:网络不可达,比如不能ping通111:链接被拒绝,比如目标关闭链接等115:当链接设置为非阻塞时,目标没有及时应答,返回此错误,socket可以继续使用 附录:Linux的错误码表(errno table)_ 124 EMEDIUMTYPE_ Wrong medium type_ 123

2015-08-28 18:10:55 2605

原创 LDA主题模型的训练算法和预测算法

LDA训练算法:(1)随机初始化α和β(一般α取值为50/主题数,β取值为0.1);(2)以下步骤迭代直到收敛:   (2.1)对训练集中的每篇文档:       (2.1.1)利用当前的α和β值计算每篇文档的主题分布、每个词所属的主题分布(具体算法见下文);   (2.2)累积所有文档中,属于主题k(k=1…K)的词的个数,得到向量gammas;以及词i(i=1…V)属于

2015-08-21 17:55:17 11523 1

转载 SVM常用的核函数

支持向量机是建立在统计学习理论基础之上的新一代机器学习算法,支持向量机的优势主要体现在解决线性不可分问题,它通过引入核函数,巧妙地解决了在高维空间中的内积运算,从而很好地解决了非线性分类问题。构造出一个具有良好性能的SVM,核函数的选择是关键.核函数的选择包括两部分工作:一是核函数类型的选择,二是确定核函数类型后相关参数的选择.因此如何根据具体的数据选择恰当的核函数是SVM应用领域遇到的一

2015-08-21 12:03:14 6353

原创 adaBoost算法

二、Adaboost算法及分析  从图1.1中,我们可以看到adaboost的一个详细的算法过程。Adaboost是一种比较有特点的算法,可以总结如下:  1)每次迭代改变的是样本的分布,而不是重复采样(re weight)  2)样本分布的改变取决于样本是否被正确分类  总是分类正确的样本权值低  总是分类错误的样本权值高(通常是边界附近的样本)

2015-08-21 12:02:32 621

转载 用dom4j解析xml文件

dom4j是一个Java的XML API,类似于jdom,用来读写XML文件的。dom4j是一个非常非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件,可以在SourceForge上找到它.       对主流的Java XML API进行的性能、功能和易用性的评测,dom4j无论在那个方面都是非常出色的。如今你可以看到越来越多的

2015-08-21 11:53:09 723

转载 Libsvm的使用

LIBSVM简介支持向量机所涉及到的数学知识对一般的化学研究者来说是比较难的,自己编程实现该算法难度就更大了。但是现在的网络资源非常发达,而且国际上的科学研究者把他们的研究成果已经放在网络上,免费提供给用于研究目的,这样方便大多数的研究者,不必要花费大量的时间理解SVM算法的深奥数学原理和计算机程序设计。目前有关SVM计算的相关软件有很多,如LIBSVM、mySVM、SVMLight等,这些软

2015-08-21 11:52:02 768

转载 SVM分类器原理详解

第一层、了解SVM    支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。1.1、分类标准的起源:Logistic回归    理解SVM,咱们必须先弄清楚一个概念:线性分类器。

2015-08-21 11:51:05 114056 8

原创 JAVA正则表达式

JDK1.4及之后:java.util.regex 是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。它包括两个类:Pattern 和 MatcherPattern :一个 Pattern 是一个正则表达式经编译后的表现模式指定为字符串的正则表达式必须首先被编译为pattern类的实例。然后,可将得到的模式用于创建 Matcher 对象,依照正则表达式,

2015-08-20 10:34:42 568

原创 LDA主题模型的java代码实现

LDA主题模型的java代码实现,包括训练和预测

2015-08-20 10:21:30 9592 3

原创 LDA主题模型介绍

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易

2015-08-20 09:59:42 3870

转载 weka中的各算法说明

1) 数据输入和输出WOW():查看Weka函数的参数。Weka_control():设置Weka函数的参数。read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据。write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。2) 数据预

2015-08-19 17:36:18 5563

原创 词性标注 词性标识编码表

参考《PFR人民日报标注语料库》的词性编码表,如表4-4所示:表4-4  词性编码表代码名称举例a形容词最/d  大/a  的/u ad副形词一定/d  能够/v  顺利/ad  实现/v  。/w

2015-08-07 11:29:19 2568

原创 java.util.regex.PatternSyntaxException

Set stopWordsSet = SegmentWordsResult.getStopWordsSet(); for(String stop : stopWordsSet){ if(str.contains(stop))// System.out.println("true: "+stop); str = str.replaceAll(

2015-08-07 11:13:02 642

java开发hbase-1.2.1所需的jar包

java开发hbase-1.2.1所需的jar包

2016-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除