计算机专业论文技术领域分类,机械领域文本采集和分类的研究与设计-计算机应用技术专业论文.docx...

西安建筑科技大学硕士学位论文

西安建筑科技大学硕士学位论文

机械领域文本采集和分类的研究与设计

专业:计算机应用技术 硕 士 生:魏胜辉 指导老师:董丽丽教授

摘要

随着互联网的迅速发展,各行业信息化程度不断提高,越来越多的信息积累 在网络上,如何在浩瀚的信息中寻找到有用的信息,一直是领域研究的热点。本 文的研究背景是陕西省教育厅专项科研项目“面向特定领域需求的概念设计方案 自动生成方法研究”。课题选择机械领域为研究目标,探索如何从海量信息中搜索 有用的行业信息,并将结果做进一步分类,满足机械行业对知识的需求。

本文的研究重点为两个方面:主题爬虫和文本分类。主题爬虫研究的是第一 次信息抽取过程,将机械领域文本信息从互联网信息中抽取出来,完成第一次的 两分类过程。文本分类将主题爬虫抽取的信息作进一步处理,按照领域专家和实 际项目的需求,将机械领域的信息细分到十个子领域中,完成第二次的多分类过 程。论文主要完成了以下工作:

(1) 根据机械领域专家的指导,完成了机械领域专业词库的搭建,收录机械领

域十个产品分类专业词汇共 2 万个,为后续爬虫主题描述、网页相关度计算、中 文分词、文本描述和文本分类工作做好基础工作。

(2) 设计了机械领域主题爬虫,通过主题描述,选择适当的爬行策略指导爬虫 爬行工作,通过相关度计算,抽出合适的文本信息下载到页面库,爬虫完成第一 次分类过程,页面库中的文本信息为机械领域文本信息。

(3) 依据朴素贝叶斯原理设计分类器,实现机械领域文本的二次分类,经实验 验证,分类效果不理想,进而分析造成分类准确度不高的原因。

(4) 根据原因提出改进方法,通过引入灰色关联度计算和改进权值计算方法, 设计出改进后的贝叶斯文本分类器,实验验证分类效果提高,可以满足实际工程 的应用。

(5) 根据上述实验,完成了机械领域信息采集与分类的设计与实现。 关键词:主题爬虫;专业词库;文本分类;灰色关联度;贝叶斯分类

西安建筑科技大学硕士学位论文

西安建筑科技大学硕士学位论文

西安建筑科技大学硕士学位论文

西安建筑科技大学硕士学位论文

Research and Design of Machinery-Text Acquisition and Classification

Specialty: Computer Application Technology

Name: Wei Shenghui

Instructor: Prof.Dong Lili

ABSTRACT

With the rapid development of the Internet, the information technology industry continuously improves, more and more information is accumulated on the network.How to find useful information in the vastness of the information has been a hot topic of research in the field. The background of this study is to the needs of specific areas of conceptual design Automatic Generation which is belong to Shaanxi Provincial Department of Education special research projects. The topics chose the mechanical field as the research objectives, and explore how to search information from the mass of useful industry information and do the further classification, inorder to meet the demand of themachinery industry.

This study focuses on the two aspects, the theme crawler and text classification. The theme crawler do the first classification which extraces the mechanical text from the internet.The text classifier do the second classification which assign t

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值