中文网页自动分类综述

         1.中文网页自动分类是从文本自动分类的基础上发展起来的,由于文本自动分类拥有比较成熟的技术,不少研究工作试图使用纯文本分类技术实现网页分类。孙建涛指出:用纯文本方式表示网页是困难的,也是不合理的,因为网页包含的信息比纯文本包含的信息要丰富得多;用不同方式表示网页然后再组合分类器的方法能够综合利用网页的特征,但各个分类器的性能难以估计,使用什么组合策略也难以确定。董静等人提出了基于网页风格、形态和内容对网页分类的网页形式分类方法,从另外的方面对网页分类进行研究;范众等人提出一种用朴素贝叶斯协调分类器综合网页纯文本和其它结构信息的分类方法;试验结果证明组合后的分类器性能都有一定程度的提高;都云琪等人采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试,结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。鲁明羽等提出一种网页摘要方法,以过滤网页中对分类有负面影响的干扰信息;刘卫红【基于内容与链接特征的中文垃圾网页分类】等提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类;张义忠提出了一种SOFM(自组织特征映射)与LVQ(学习矢量量化)相结合的分类算法,利用一种新的网页表示方法,形成特征向量并应用于网页分类中。该方法充分利用了SOFM自组织的特点,同时又利用LVQ解决聚类中测试样木的交迭问题。实验表明它不仅具有较高的训练效率,同时有比较好的查全率和查准率;李滔等将粗糙集理论应用于网页分类,约简一个己知类别属性的训练集并得出判断规则,然后利用这些规则判别待分网页的类别。

      2中文网页分类关键技术
      2.1网页特征提取
    特征提取在整个中文网页分类的过程中非常重要,是能够体现网页分类核心思想的地方,特征提取的效果直接影响分类的质量。特征提取就是对词条选择之后的词再次进行提取,提取那些能代表网页类别的词来构成用于分类的向量。特征提取的方法主要根据评估函数计算每个词条的值,再根据每个词条的值进行降序排序,选择那些值较高的词条作为最后的特征。征提取的常用的评估函数有文档频率(DF)、信息增益(IG)、互信息(MI)、开方拟和检验(CHI)、期望交叉嫡(ECE)和术语强度(TS)等【The processing technology of Chinese informationin Chinese search engineering】【Developments in automatic text retrieval】通过对上述5种经典特征选取方法的实验,结果表明【A Comparative Study on Feature Selection in Text Categorization】CHI和IG方法的效果最佳;DF,IG和CHI的性能大体相当,都能够过滤掉85%以上的特征项;DF具有算法简单、质量高的优点,可以用来代替CHI和IG;TS方法性能一般;MI方法的性能最差。进而的实验结果表明组合提取方法不但提高分类精度,还显著缩短分类器训练时间。

      2.2分类算法
     分类算法是分类技术的核心部分,目前存在多种中文网页分类算法,朴素贝叶斯(NB),K一近邻(KNN ) 【A study of aproaches to hyertext categorization】、支持向量机(SVM )【,Text categorization with support vector machines:Learning  with many】、决策树(Decision Tree)和神经网络(NN)等。
    朴素贝叶斯(NB)算法首先计算特征词属于每个类别的先验概率,在分类新文本时,根据该先验概率计算该文本属于每个类别的后验概率,最后取后验概率最大的类别作为该文木所属的类别。很多学者对贝叶斯分类算法进行了改进,如结合潜在语义索引的贝叶斯方法,结合模糊聚类的朴素贝叶斯方法,贝叶斯层次分类法等。
    K一近邻(KNN)是传统的模式识别算法,在文本分类方面得到了广泛的研究与应用。它通过计算文本间的相似度,找出训练集合中与测试文本最相近的k个文本,即新文本的k个近邻,然后根据这k个文本的类别判定新文本的类别。
    支持向量机(SVM)以结构风险最小化原则为理论基础。通过适当选择函数子集及其该子集中的判别函数使学习机的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器对独立测试集的测试误差相对也小,从而得到一个具有最优分类能力和推广一能力的学习机。SVM算法具有较强的理论依据,在应用到文本分类时取得了很好的实验结果。李蓉【SVM-KNN分类器—一种提高SVM分类精度的新方法】等提出了KNN与SVM相结合的分类算法,取得了更好的分类效果。目前,比较有效的SVM实现方法包括Joachims的SVMlight系统和Platt的序列最小优化算法。                    
决策树(Decision Tree)是通过对新样本属性值的测试,从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,该叶节点表示的类别就是新样木的类别。决策树方法是数据挖掘中非常有效的分类方法,它具有较强的噪音排除能力及学习反义表达能力。可以使用几种流行的归纳技术如C4.5 , CART , CHAID来建立决策树。                                                                                                                                                                                      神经网络(NN)是一组连接的输入/输出单元,输入单元代表词条,输出单元表示文木的类别,单元之间的连接都有相应的权值。训练阶段,通过某种算法,如后向传播算法,调整权值,使得测试文本能够根据调整后的权值正确地学习。土煌等提出了基于RBf和决策树结合的分类法。

      3.中文网页分类的评价指标
      对于网页分类的效率评价标准,目前还没有真正权威和绝对理想的标准,通用的性能评价指标:召回率R (Recall)、准确率P(Precision)和F1评价。
     召回率为分类的正确网页数和应有的网页数的百分比,即该类样本被分类器正确识别的概率。准确率也称为分类的精度,它是指自动分类和人工分类结果一致的网页所占的比率。召回率和准确率不是独立的,通常为了获得比较高的召回率通常要牺牲准确率;同样,为了获得比较高的准确率通常要牺牲召回率。因此需要有一种综合考虑召回率和准确率的方法来对分类器进行评价。F1度量是常用的组合方式:F1= 2RP /(R + P) 。其实,网页数量极其巨大,单纯的查全率己经没有实际价值,查准率的意义也要作相应的变通;数据库规模,索引方法,用户界面响应时间应该纳入评价体系作为评价指标。

       4.中文网页分类系统简介
       TRS网络信息需达系统(TRS InfoRadar)是北京托尔思信息技术股份有限公司开发,该系统实时监控和采集Internet网站内容,对采集到的信息自动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布出来,实现统一的信息导航。同时提供包括全文、日期等在内的全方位信息查询。TRS InfoRadar集信息采集监控、网络舆情、竞争情报等多种功能于一体,被广泛地应用于政府、媒体、科研、企业等各个行业中。TRS InfoRadar在内容运营的垂直搜索应用、内容监管的网络舆情应用以及决策支持的竞争情报等方面的应用,将极大的提高组织对外部信息的获取效率,极大降低信息采集成本,全方位掌控环境脉动,并提高各个组织的快捷反应效能。
    百度电子政务信息共享解决方案以百度先进的信息整合处理技术为核心,为政府内网和政府信息门户建设高性能信息共享平台,能够将相关地区、机构、组织等多种信息源的信息集中共享,让用户在一个地方即可获取到所需要的各种相关信息,使电子政务由”形象工程”变成”效益工程”,有效提高政府工作效率,大幅提升政府威信和公众形象。其具有强大的信息采集能力、安全的信息浏览、准确的自动分类、全面的检索功能、丰富的检索结果展示和基于Web的系统管理平台的特点。
    清华同方KSpider网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用的信息服务系统。KSpider能够从各种网络信息源,包括网页,BLOC、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。KSpider能够快速及时地捕获用户所需的热点新闻、市场情报、行业信息、政策法规、学术文献等网络信息内容可广泛用于垂直搜索引擎、网络敏感信息监控、情报收集、舆情分析、行情跟踪等方面。

5结束语
    随着因特网的迅速发展,中文网页自动分类成为搜索引擎实现分类查询的关键。这就要求中文网页自动分类技术在网页的处理方法、网页效果识别、分类精度和评价指标等方面有进一步的提高所以中文网页自动分类技术是一个长期而艰巨的研究课题。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值