计算机技术与阅读,计算机技术与发展.pdf

a7f4a3f590493a1e451dd952a488fd7c.gif 计算机技术与发展.pdf

(4页)

3b9beba4ae03db39612391d4c9f8579a.gif

本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦!

9.9 积分

第 l9 卷 第 4 期 2009 年 4 月 计 算 机 技 术 与 发 展 C O M P U 丁E R T E C H N O )【 Y A N T ) D E V E I.O P M E N T V 【)1.19 N o .4 A D r. 20 09 基 于遗传 算 法 和模糊 聚类 的文本 分类研 究 于水英 ,丁华福 ,付 志超2 (1.哈 尔滨理工大学 计算机科 学与技术学院,黑龙江 哈 尔滨 150080; 2 .哈 尔滨理工大学 自动化 学院,黑龙江 哈 尔滨 150080) 摘 要 :鉴于模糊 C 一均值类型算法(R 、M 算法)对初始中心敏感的问题,提 出了一种基于遗传算法和模糊聚类的文本分 类方法。采用遗传算法初始聚类中心 ,并在适应度的计算中采用了一个可变值 ,用户可以在文本直接聚类时更改该值 ,产 生用户满意的属性约简结果,极大地提高了系统的分类精度。最后通过实验给出了该算法性能的测试结果。 关键词 :模糊聚类;遗传算法;文本分类 ;FCM 中图分 类号 :T P 30 1.6 文献 标识 码 :A 文 章编 号 :1673 — 62 9X (2 009 )04 — 0 13 1 — 03 S tu d y o n T ex t C a teg oriz ation B a sed on G en etic A lgo rith m a n d F uzzy C lusterin g Y U S hu i ying ,D IN G H ua-fu ,F U Z h i—ch ~o2 (1.College of Com puter Sci.and T echn.,H arbin U niv.of Sci.an d T echn .,H arbin 150080 ,China; 2 .A utom ation College,H arbin U niv.of Sci.an d T echn.,H arbin 150080 ,C hina) A bstract:In view of the nature of fuzzy C — m eans algori thm (FC M ) is sensitive t0 in itial value ,presented a m ethod of text ca tegori zation ba se d o n g en etic a lg o rithm an d fu zzy c lusterin g ,u sing g en e tic a lgo ri thm s to in itial clus te r cen tres .A n d v ariab le v alu es W R S ad a p ted in th e fitness com putation procedure,users co uld el~ ng e the val ue of cluster in the text in order to obtain the custom er za tisfacted p roperties, th u s g rea tly im p ro v e th e fu sio n sys tem ’S classifica tion a cc ur ac y .T h e ex p erim en tal re su lts o f th e a lg o rithm are g iv en a t th e en d o f th e pa — p er th ro u g h ex pe ri m en ts . K ey w o rd s :fu zzy clu stering ;g en e tic alg o ri th m ;te xt categ or iza tio n : O 引 言 随着互联网的普及与应用 ,网络信息快速膨胀 ,使 得文本 自动分类对于信 息处理 的意 义 变得更 加重要 , 文本 自动分类 已成为一项重要的研究课题 。文本 聚类 没有预先定义的文本主题类别 ,是一种无监督 、无指导 的文本分类 ,仅靠文本 间的相 似性作 为把 文本集 合划 分 为若干个簇 的依 据 ,且 同一簇 内的文本 相似度 尽可 能 大 ,而不 同簇 间的文本相 似度尽 可能小 。但是 ,现实 的文本 聚类 问题 往往具有 模糊性 ,所 以用模 糊数 学 的 思想来进行 文本 聚类 分析更 符合 客 观实 际 ,其 聚类 结 果进而用来指导文本 分类 ,这 就是 基 于模糊 聚类 的文 本分类 。 模糊 C 一均值 类 型算法 (F C M 算法 ) 是应用 最 广 收稿 日期 :2008 — 0 7 ~22 基金项 目:国家 自然科 学基金重点项 目(607 360 14 ) 作者简介 :于水英 (198 1 一),女 ,辽 宁朝阳人 ,硕 士研究生 ,研究方 向 为文本分类 、信息检索 ;丁华福 ,教授 ,研 究方 向为 自然语 言处理 ,数 据挖掘 。 泛 的算法 之一 ,由于 FC M 算法 的不足 ,笔者 提 出了一 种新 的模糊 聚类 的文本 分类方法 ,为文本 自动分类 技 术 的发展 提供一 个新 的发展方 向。 1 FC M 算法所 面临的问题 D unn 和 B ezdek【 , J提出的模糊 C 一均 值类 型算 法 (FCM 算法 )是应用最广泛 的算法之一 ,但 其本质属 于 局部搜索 的爬 山法 ,对 聚类 中心 的初始 化较 敏感 。研 究表 明,FCM 类 型的算法 都以确定 的 目标 函数来测 度 聚类的效果 ,最佳 的聚类效果 对应 于 目标 函数 的极 值 点 。由于 目标 函数局部极小值点的存在 以及算法 的贪 心性 ,导致聚类结果对初始 中心敏感 ,往往达不到全 局 最优。针对 F C M 算法对初始 聚类 中心 的敏感 问题 ,可 以选取不 同的初始值 多 次执行 该算 法 ,然后 选 取最好 的结果 。 显 然 ,如果 初始 中心选 取次 数较少 不 能保证 得 到 最 优解 ,选 取次数较多则 会大大增加计算 量 。因此 ,许 多研究者针对 这个 问题 提出了改进的算法。 关 键 词: 技术 发展 计算机

4d91c43bfc72ca913299809b07b4968f.gif  天天文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值