面筋·七月ML300TI

本文探讨了生成型与判别型模型的区别,重点介绍了中文分词的基本方法,包括基于语法规则、词典的最大匹配法、最大概率法和最短路径法,并提及了基于统计的分词如HMM和CRF。此外,还涉及了CRF、HMM、MEMM的对比分析,以及机器学习中的关键概念如欧式距离、马氏距离、L1和L2正则化、偏差与方差、过拟合和欠拟合。
摘要由CSDN通过智能技术生成

1、生成型&判别型

  • 判别模型(discriminative model)通过求解条件概率分布P(y|x)或者直接计算y的值来预测y
  • 生成模型(generative model)通过对观测值和标注数据计算联合概率分布P(x,y)来达到判定估算y的目的
判别型 生成型
线性回归(Linear Regression) 朴素贝叶斯(Naive Bayes)
逻辑回归(Logistic Regression) 隐马尔科夫模型(HMM)
支持向量机(SVM) 隐含狄利克雷分布(LDA主题模型)
线性判别分析(LDA) 高斯混合模型
条件随机场(CRF)

2、最大概率分词 => 南京 市长 江大桥

  • 一个待切分的汉字串可能包含多种分词结果,将其中概率最大的作为该字串的分词结果。
  • 若某候选词在训练语料中未出现,其概率为0。
以P(w)表示词条w的概率,假设已知P(南京)
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值