文本分类入门(七)相关概念总结

最新推荐文章于 2024-07-21 00:53:01 发布

hechenghai

最新推荐文章于 2024-07-21 00:53:01 发布

阅读量444

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

37 篇文章 0 订阅

订阅专栏

学习方法：使用样例（或称样本，训练集）来合成计算机程序的过程称为学习方法[22]。

监督学习：学习过程中使用的样例是由输入/输出对给出时，称为监督学习[22]。最典型的监督学习例子就是文本分类问题，训练集是一些已经明确分好了类别文档组成，文档就是输入，对应的类别就是输出。

非监督学习：学习过程中使用的样例不包含输入/输出对，学习的任务是理解数据产生的过程 [22]。典型的非监督学习例子是聚类，类别的数量，名称，事先全都没有确定，由计算机自己观察样例来总结得出。

TSR（Term Space Reduction）：特征空间的压缩，即降维，也可以叫做特征提取。包括特征选择和特征抽取两大类方法。

分类状态得分（CSV，Categorization Status Value)：用于描述将文档归于某个类别下有多大的可信度。

准确率（Precision）：在所有被判断为正确的文档中，有多大比例是确实正确的。

召回率（Recall）：在所有确实正确的文档中，有多大比例被我们判为正确。

假设：计算机对训练集背后的真实模型（真实的分类规则）的猜测称为假设。可以把真实的分类规则想像为一个目标函数，我们的假设则是另一个函数，假设函数在所有的训练数据上都得出与真实函数相同（或足够接近）的结果。

泛化性：一个假设能够正确分类训练集之外数据（即新的，未知的数据）的能力称为该假设的泛化性[22]。

一致假设：一个假设能够对所有训练数据正确分类，则称这个假设是一致的[22]。

过拟合：为了得到一致假设而使假设变得过度复杂称为过拟合[22]。想像某种学习算法产生了一个过拟合的分类器，这个分类器能够百分之百的正确分类样本数据（即再拿样本中的文档来给它，它绝对不会分错），但也就为了能够对样本完全正确的分类，使得它的构造如此精细复杂，规则如此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别！

超平面（Hyper Plane）：n维空间中的线性函数唯一确定了一个超平面。一些较直观的例子，在二维空间中，一条直线就是一个超平面；在三维空间中，一个平面就是一个超平面。

线性可分和不可分：如果存在一个超平面能够正确分类训练数据，并且这个程序保证收敛，这种情况称为线形可分。如果这样的超平面不存在，则称数据是线性不可分的[22]。

正样本和负样本：对某个类别来说，属于这个类别的样本文档称为正样本；不属于这个类别的文档称为负样本。

规划：对于目标函数，等式或不等式约束都是线性函数的问题称为线性规划问题。对于目标函数是二次的，而约束都是线性函数的最优化问题称为二次规划问题[22]。

对偶问题：

给定一个带约束的优化问题

目标函数：min f(x)

约束条件：C(x) ≥0

可以通过拉格朗日乘子构造拉格朗日函数

L(x,λ)=f(x)- λTC(x)

令g(λ)= f(x)-λTC(x)

则原问题可以转化为

目标函数：max g(λ)

约束条件：λ≥0

这个新的优化问题就称为原问题的对偶问题（两个问题在取得最优解时达到的条件相同）。

参考:

http://wiki.52nlp.cn/

http://www.blogjava.net/zhenandaci/category/31868.html

[1]李晓明，闫宏飞，王继民，“搜索引擎——原理、技术与系统”.科学出版社，2004

[2]冯是聪, "中文网页自动分类技术研究及其在搜索引擎中的应用," 北京大学,博士论文, 2003

[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.

[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999

[5]王涛：文本自动分类研究，图书馆学研究，2007.12

[6]周文霞：现代文本分类技术研究，武警学院学报，2007.12

[7]奉国和：自动文本分类技术研究，情报杂志，2007.12

[8]崔彩霞，张朝霞：文本分类方法对比研究，太原师范学院学报（自然科学版），2007.12

[9]吴军：Google黑板报数学之美系列，http://googlechinablog.com

[10]刘霞，卢苇：SVM在文本分类中的应用研究，计算机教育，2007.1

[11]都云琪，肖诗斌：基于支持向量机的中文文本自动分类研究,计算机工程，2002，28(11)

[12]周昭涛，卜东波：文本的图表示初探，中文信息学报，第19卷第2期

[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999

[14]唐春生，张磊：文本分类研究进展

[15]李莼，罗振声：基于语义相关和概念相关的自动分类方法研究，计算机工程与应用，2003.12

[16]单松巍，冯是聪，李晓明：几种典型特征选取方法在中文网页分类上的效果比较，计算机工程与应用，2003.22

[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97)，l997

[18]董振东：知网简介，知网，http://www.keenage.com/zhiwang/c_zhiwang.html

[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies，1997

[20] Edda Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines：How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002

[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”

[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000

[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002

[24]TRS公司，TRS文本挖掘基础件白皮书

[25]苏金树，张博锋：基于机器学习的文本分类技术研究进展，Journal of Software,2006.9