第22卷 第3期 计 算机 技 术 与发 展 V0l_22 No.3
2012年3月 COMPUTERTE CHNOLOGYANDDEVELOPMENT Mar. 2012
基于混合模拟退火一遗传算法和
HMM 的Web挖掘
邹腊梅,龚向坚
(南华大学计算机科学与技术学院,湖南衡阳421001)
摘 要:隐马尔可夫模型训练算法是一种局部搜索算法,对初值敏感。传统方法采用随机参数训练隐马尔可夫模型时常
陷入局部最优,应用于Web挖掘效果不佳。遗传算法具有较强的全局搜索能力,但容易早熟、收敛慢,模拟退火算法具有
较强的局部寻优能力,但会随机漫游,全局搜索能力欠缺。综合考虑遗传算法和模拟退火算法的特点,提出混合模拟退火
一 遗传算法SGA,优化HMM初始参数,弥补Baum—Welch算法对初始参数敏感的缺陷,Web挖掘的实验结果表明五个域提
取的REC和PRE都有明显的提高。
关键词:模拟退火算法;遗传算法;隐马尔可夫模型;Web挖掘
中图分类号:TP391 文献标识码 :A 文章编号:1673—629X(2012)03—0106—04
W ebMiningBasedonHybridSimulatedAnnealing
GeneticAlgorithm andHMM
ZOULa-mei,GONGXiang-jian
(SchoolofComputerScienceandTechnology,UniversityofSouthChina,Hengynag421001,China)
Abstract:Thetrainingalgorithm whichisusedtotrainingHMM isasub—optimalalgorithm andsensitivetoinitialparameters.Typical
hiddenMrakovmodeloftenleadstosub-optimalwhentrainingitwithrandom parma eters.ItisineffectivewhenminingW ebinformation
wim typical HM .GA hashteexcellentabmtyofglobalsearchingnadhashtedefectofslow convergencerate.SAhashteexcellentabil—
ityof localsearchingnadhashtedefectofrandomlyroaming.tIcombinestheadvantagesofgeneticalgorithm andsimulatednanealingal-
gorithm,proposeshybridsimulatednanealinggeneticalgorihtm(SGA).SGAchoosesthebestSGAparametersbyexperimentandoptimi-
ZeSHMM combiningBaum-WelchduringhteCOUrseofW ebmining.Theexperimentalresetsshow htathteSGA significantlyimproves
theperfomr naceinprecisionnadrecal1.
Keywords:simulatednanealingalgorithm;geneticalgorihtm;hiddenMarkovmodel;W ebmining
O 引 言 联网中大部分信息是未经处理的文本数据 ,运用 HMM
随着互联网的发展进入 Web2.0时代,Web已经 进行 Web挖掘是一种基于统计学习的方法。因为是
成为信息制造、发布、加