分类技术

分类技术

1、概述

互联网使得信息的传播速度以及规模达到了空前的水平。“信息爆炸”已成为人们必须面对的问题。从数据海洋中迅速准确的获取所需要的信息变得非常困难。

当前的知识信息主要以文本作为载体,大部分文本信息以非结构化或半结构化的形式存在,如电子邮件,电子文档以及电子文案等,他们不易被机器理解也不可能完全依赖人工进行管理。因此采用信息化手段通过机器学习方法对这些文本信息进行了处理显得尤为重要。

文本分类技术(Text categorization,TC)作为组织和管理文本信息的有效手段,主要任务是自动分类无标签文档到预定的类别集合中。

文本可以是媒体新闻、科技、报告、电子邮件、网页、书籍或像微博一样的一段语料。由于类别事先定义好的,因此分类是有监督学习的。

2、企业中的使用场景

2.1 三大算法场景
  • NLP

    nature language process,自然语言处理。

  • 图像

  • 语音

2.2 具体应用场景
  • 推荐系统的标签

  • 用户画像

  • 知识图谱

  • 问答系统

  • 其他

    垃圾过滤,新闻分类,词性标注,舆情监控,情感分析,给领导提供决策分析,重要事件的预测,医疗诊断,疾病识别等不同领域不同情况。

3、数学理论

3.1 三大概率
  • 条件概率

    [定义]

    若Ω是全集,A、B是其中的事件(子集),P表示事件发生的概率,则:
    \[ P(A|B) = \frac{P(A,B)}{P(B)} = \frac{P(A) *P(B|A)}{P(B)} \]

  • 全概率公式

    [定义]

    \[\Omega\]为实验E的样本空间,\[B_1,B_2,..B_n\]为E的一组实验,若:

    1. \[B_i\cap B_j=\empty ,其中 i,j\in 1,2,3,...n\]
    2. \[B_1\cup B_2\cup B_3 \cup,..\cup B_n=\Omega\]

    则成为\[B_i , B_2 , ... B_n为样本空间\]

  • 贝叶斯公式

    \[ P(A,B) = P(AB) = P(B) P(A|B) = P(BA) \\ P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} \]

$$

$$

转载于:https://www.cnblogs.com/xupccc/p/9838655.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值