从零开始学习分类器到实现

最新推荐文章于 2024-06-12 21:47:21 发布

tarada

最新推荐文章于 2024-06-12 21:47:21 发布

阅读量648

点赞数

本文链接：https://blog.csdn.net/qq_38772841/article/details/74065249

版权

一、基本概念：

1. 聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程

2. 聚类的分类有监督，无监督，半监督，分别对应有无标签为-有-无-有一点

1) 有监督就是样本数据给定所有标签，然后去训练分类器，这是能达到最高精度的一种

2) 无监督也就是通常意义上的聚类，只给数据，不给标签

3) 半监督这个厉害了，绝大多数数据不给标签，然后给一小部分数据贴上标签，再送分类器里面，用有监督的方式解决偏聚类问题！

3. 分类与聚类的区别：

1) 分类简单来说，就是根据文本的特征或属性，划分到已有的类别中。也就是说，这些类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。
2) 而聚类的理解更简单，就是你压根不知道数据会分为几类，通过聚类分析将数据或者说用户聚合成几个群体，那就是聚类了。聚类不需要对数据进行训练和学习。

4. 监督学习（supervised learning）：（http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf）

是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。

5. 机器学习：

专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

是一种新的编程方式，它不需要人类来总结经验、输入逻辑，人类只需要把大量数据输入给计算机，然后计算机就可以自己总结经验归纳逻辑，这个过程就叫训练，训练过后得到一个模型，这个模型就可以用来代替人去做判断了，训练得比较好的模型甚至可以达到超过人类的判定准确度。

6. 分类算法：

最简单也最普遍的一类机器学习算法就是分类（classification）。对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是找到特征和标签间的关系（mapping）。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。

有监督学习（分类，回归）
↕
半监督学习（分类，回归），transductive learning（分类，回归）
↕
半监督聚类（有标签数据的标签不是确定的，类似于：肯定不是xxx，很可能是yyy）
↕
无监督学习（聚类）

二、具体算法：

1. 朴素贝叶斯算法：

2. SVM分类器算法：

因为SVMSVM用到太多涉及复杂的数学原理和数学公式的知识,所以根据原理写一个SVM分类器可能国语困难,一般都是借助sklearn中SVM的包.
而提高SVM分类器的准确率和召回率关键在于SVM分类器的调参, 这需要读SVM(支持向量机)的原理的论文,明晰它的数学原理,再查看SVM各个函数和参数的作用,实现科学的调参方法.

关于调参的技巧

方法1:
如果处理的数据量不是非常大,可以将某个参数多个可能的值在一次程序中陆续放入去尝试,打印多个参数以及其对应的结果,这样可以大大提高调参的效率
方法2:
对参数做回归.(这一点,我会慢慢补充)

关于准确率和召回率

准确率、召回率、F1

信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)，召回率也叫查全率，准确率也叫查准率，概念公式:

         召回率(Recall)      =  系统检索到的相关文件 / 系统所有相关的文件总数

         准确率(Precision) =  系统检索到的相关文件 / 系统所有检索到的文件总数

更通俗的解释:

    正确率 = 提取出的正确信息条数 /  提取出的信息条数     

    召回率 = 提取出的正确信息条数 /  样本中的信息条数

拿我要做的涉华新闻分类器做例子:

                召回率 = 分类器认为的涉华新闻数 / 样本中的新闻文章数

                正确率 = 确实涉华的新闻数/分类器筛选出的新闻数

注意：准确率和召回率是互相影响的，理想情况下肯定是做到两者都高，但是一般情况下准确率高、召回率就低，召回率低、准确率高，当然如果两者都低，那是什么地方出问题了。一般情况，用不同的阀值，统计出一组不同阀值下的精确率和召回率

如果是做搜索，那就是保证召回的情况下提升准确率；如果做疾病监测、反垃圾，则是保准确率的条件下，提升召回。

所以，在两者都要求高的情况下，可以用F1来衡量。

综合评价指标（F-Measure）

P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure（又称为F-Score）。

F-Measure是Precision和Recall加权调和平均：

当参数α=1时，就是最常见的F1，也即

可知F1综合了P和R的结果，当F1较高时则能说明试验方法比较有效。

tarada

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
从零开始学习分类器到实现

一、基本概念： 1. 聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程聚类的分类有监督，无监督，半监督，分别对应有无标签为-有-无-有一点 1) 有监督就是样本数据给定所有标签，然后去训练分类器，这是能达到最高精度的一种2) 无监督也就是通常意义上的聚类，只给数据，不给标签3) 半监督这个厉害了，绝大多数数据不给标签，然后给一小部分数据贴上标签，再送分类器里面，用有
复制链接

扫一扫