文本分类机器学习算法摘记

一、 KMeans的优劣

优点:
    1.是解决聚类问题的一种经典算法,简单、快速
    2.对处理大数据集,该算法保持可伸缩性和高效率
    3.当结果簇是密集的,它的效果较好
缺点
    1.必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
    2.对躁声和孤立点数据敏感


二、召回率

召回率是指检索出的  相关文档数  和  文档库中所有的相关文档数  的比率

 

三、构建文本分类器的步骤


1.确定分类体系;
2.积累样本: 从门户网站爬取指定类别下的文章
3.文本预处理;
4.训练分类器;
5.测试分类器性能。

四、Lucene的中文分词器

 1.基于字符串匹配的分词
        – paoding
        – mmseg4j:MMseg算法
        – IK:正向迭代最细粒度切分算法
 2.基于统计的分词
        – imdict:采用隐马尔科夫模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值