贝叶斯分类器

对文章进行classification 时Naive Bayes面临的问题:

      对于一些篇幅较长而关键字只有一次的情况也就是统计特征不明显的情况则会误判。

Regular Expression面临的问题:

      例句"关于向某公司增资的议案";

             "关于对公司进行重组的议案"

             "关于向某公司投资的议案"

             "关于某公司换股吸收合并本公司的公告"

而我们提供的RE的一般模式是动宾结构或者主谓结构:

             .*([转受出]让|[收认回]购|[购竟]买|[出配]售).*(股[权份]|资产|公司).*

1. 如何得到文章的特征属性?

    对文章进行分词得到的所有词语就是这篇文章的特征属性。直接分词之后应用naive bayes分类器算法可能效果还不是很好。

    可以应用TF-IDF(Term Frequency-Inverse Document Frequency)算法找出文章的关键词,用这些keywords来代表这篇文章然后

    再使用bayes算法可能会更好。

2.基于MMSeg算法的中文分词类库

   NuGet下载地址:  https://nuget.org/packages/Lucene.Net.Analysis.MMSeg/

   PM> Install-Package Lucene.Net.Analysis.MMSeg

 

3. JSON

  Json(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JS的一个子集。 Json采用完全独立于语言的文本格式。这使得Json成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。

  Json简单来说就是JS中的对象和数组,所以Json也存在两种结构:对象、数组。

  • Json对象:Json对象定义在花括号“{}”内,以Key:value键值对的形式存放数据,多个数据使用分号“;”分割。

  • Json数组:Json数组定义在方括号“[]”内,以字符串的形式存放数据,多个数据使用分号“;”分割。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值