从零开始学习分类器到实现

一、 基本概念:

1. 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程

2. 聚类的分类有监督,无监督,半监督,分别对应有无标签为-有-无-有一点

1) 有监督就是样本数据给定所有标签,然后去训练分类器,这是能达到最高精度的一种

2) 无监督也就是通常意义上的聚类,只给数据,不给标签

3) 半监督这个厉害了,绝大多数数据不给标签,然后给一小部分数据贴上标签,再送分类器里面,用有监督的方式解决偏聚类问题!

3. 分类与聚类的区别:

1) 分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。
2) 而聚类的理解更简单,就是你压根不知道数据会分为几类,通过聚类分析将数据或者说用户聚合成几个群体,那就是聚类了。聚类不需要对数据进行训练和学习。

4. 监督学习(supervised learning):(http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf

是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

5. 机器学习:

专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

是一种新的编程方式,它不需要人类来总结经验、输入逻辑,人类只需要把大量数据输入给计算机,然后计算机就可以自己总结经验归纳逻辑,这个过程就叫训练,训练过后得到一个模型,这个模型就可以用来代替人去做判断了,训练得比较好的模型甚至可以达到超过人类的判定准确度。

6. 分类算法:

最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。

有监督学习(分类,回归)

半监督学习(分类,回归),transductive learning(分类,回归)

半监督聚类(有标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy)

无监督学习(聚类)

二、具体算法:

1. 朴素贝叶斯算法:

2. SVM分类器算法:

因为SVMSVM用到太多涉及复杂的数学原理和数学公式的知识,所以根据原理写一个SVM分类器可能国语困难,一般都是借助sklearn中SVM的包.
而提高SVM分类器的准确率和召回率关键在于SVM分类器的调参, 这需要读SVM(支持向量机)的原理的论文,明晰它的数学原理,再查看SVM各个函数和参数的作用,实现科学的调参方法.

关于调参的技巧

方法1:
如果处理的数据量不是非常大,可以将某个参数多个可能的值在一次程序中陆续放入去尝试,打印多个参数以及其对应的结果,这样可以大大提高调参的效率
方法2:
对参数做回归.(这一点,我会慢慢补充)

关于准确率和召回率

准确率、召回率、F1

信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:

         召回率(Recall)      =  系统检索到的相关文件 / 系统所有相关的文件总数

         准确率(Precision) =  系统检索到的相关文件 / 系统所有检索到的文件总数

更通俗的解释:

    正确率 = 提取出的正确信息条数 /  提取出的信息条数     

    召回率 = 提取出的正确信息条数 /  样本中的信息条数    

拿我要做的涉华新闻分类器做例子:

                召回率 = 分类器认为的涉华新闻数 / 样本中的新闻文章数

                正确率 = 确实涉华的新闻数/分类器筛选出的新闻数

注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率

如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回。

所以,在两者都要求高的情况下,可以用F1来衡量。

综合评价指标(F-Measure)

P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。

F-Measure是Precision和Recall加权调和平均:

当参数α=1时,就是最常见的F1,也即

可知F1综合了P和R的结果,当F1较高时则能说明试验方法比较有效。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值