贝叶斯分类器

最新推荐文章于 2020-07-22 20:39:16 发布

albertliangyg

最新推荐文章于 2020-07-22 20:39:16 发布

阅读量738

点赞数

分类专栏： Note

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/albertliangyg/article/details/9528625

版权

Note 专栏收录该内容

69 篇文章 0 订阅

订阅专栏

对文章进行classification 时Naive Bayes面临的问题：

对于一些篇幅较长而关键字只有一次的情况也就是统计特征不明显的情况则会误判。

Regular Expression面临的问题：

例句"关于向某公司增资的议案"；

"关于对公司进行重组的议案"

"关于向某公司投资的议案"

"关于某公司换股吸收合并本公司的公告"

而我们提供的RE的一般模式是动宾结构或者主谓结构：

.*([转受出]让|[收认回]购|[购竟]买|[出配]售).*(股[权份]|资产|公司).*

1. 如何得到文章的特征属性？

对文章进行分词得到的所有词语就是这篇文章的特征属性。直接分词之后应用naive bayes分类器算法可能效果还不是很好。

可以应用TF-IDF(Term Frequency-Inverse Document Frequency)算法找出文章的关键词，用这些keywords来代表这篇文章然后

再使用bayes算法可能会更好。

2.基于MMSeg算法的中文分词类库

NuGet下载地址: https://nuget.org/packages/Lucene.Net.Analysis.MMSeg/

PM> Install-Package Lucene.Net.Analysis.MMSeg

3. JSON

　　Json(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JS的一个子集。 Json采用完全独立于语言的文本格式。这使得Json成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成。

　　Json简单来说就是JS中的对象和数组，所以Json也存在两种结构：对象、数组。

Json对象：Json对象定义在花括号“{}”内，以Key:value键值对的形式存放数据，多个数据使用分号“；”分割。

Json数组：Json数组定义在方括号“[]”内，以字符串的形式存放数据，多个数据使用分号“；”分割。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
10
评论
贝叶斯分类器

1. 如何得到特征属性？
复制链接

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。