基础文本分析项目

本文介绍了一个基础的文本分析项目,包括分词和分类两大功能。使用Python的jieba库进行精确分词,并结合停用词表进行处理。分类部分涉及NBC和LDA算法,对文本进行主题分布预测。项目要求分词和分类的正确率在85%以上,最终以UTF-8文本格式提供结果。
摘要由CSDN通过智能技术生成

文本分析概述

  文本分析常应用于:翻译,搜索引擎,文章推荐,人物-事物-事件关系图,智能输入法等领域

因此文本分析通常是作为一些项目的子项目来进行的

文本分析包含很多内容如:分词,分类,错别字纠正,输入预测等

需求分析

【功能需求】

对于分词:算法以一段文本作为输入,算法输出分词后的文本,如:输入"基础文本分析项目"  算法会输出"基础/文本/分析/项目"

对于分类:算法以一段文本作为输入,算法输出文本的主题分布

通过是否含有标记,在分类时选择不同的算法,含有标记则选择NBC(朴素贝叶斯),否则使用LDA(隐含狄利克雷分布)

(暂时只有这两种功能。。。后续会添加功能)

【性能需求】

响应时间:和搜索引擎类似

信息量速率:未知

主存容量:未知

。。。

【可靠性和可用性需求】

ps:系统在一个时间段出错的次数不大于多少

未知

【出错处理需求】

ps:这类需求说明系统对于环境错误应该怎样响应

未知

【接口需求】

ps:数据的格式

用户接口需求:用户输入UTF-8形式的文本文件,每一篇文章前有序号,序号后面有一个#号&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值