对文章进行classification 时Naive Bayes面临的问题:
对于一些篇幅较长而关键字只有一次的情况也就是统计特征不明显的情况则会误判。
Regular Expression面临的问题:
例句"关于向某公司增资的议案";
"关于对公司进行重组的议案"
"关于向某公司投资的议案"
"关于某公司换股吸收合并本公司的公告"
而我们提供的RE的一般模式是动宾结构或者主谓结构:
.*([转受出]让|[收认回]购|[购竟]买|[出配]售).*(股[权份]|资产|公司).*
1. 如何得到文章的特征属性?
对文章进行分词得到的所有词语就是这篇文章的特征属性。直接分词之后应用naive bayes分类器算法可能效果还不是很好。
可以应用TF-IDF(Term Frequency-Inverse Document Frequency)算法找出文章的关键词,用这些keywords来代表这篇文章然后
再使用bayes算法可能会更好。
2.基于MMSeg算法的中文分词类库
NuGet下载地址: https://nuget.org/packages/Lucene.Net.Analysis.MMSeg/
PM> Install-Package Lucene.Net.Analysis.MMSeg
3. JSON
Json(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JS的一个子集。 Json采用完全独立于语言的文本格式。这使得Json成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。
Json简单来说就是JS中的对象和数组,所以Json也存在两种结构:对象、数组。
- Json对象:Json对象定义在花括号“{}”内,以Key:value键值对的形式存放数据,多个数据使用分号“;”分割。
- Json数组:Json数组定义在方括号“[]”内,以字符串的形式存放数据,多个数据使用分号“;”分割。