nlp
silentkunden
纸上得来终觉浅!
展开
-
【NLP | 词性标注】使用最大匹配与viterbi算法代码实现中文词性标注
代码实现使用简单的最大匹配算法实现分词同时使用维特比算法实现词性的标注任务。原创 2022-01-21 10:00:15 · 803 阅读 · 0 评论 -
【nlp | 分词】使用最大匹配(max matching)分词
最大匹配的分词方法是通过设置最大的匹配长度,对输入的sentence基于已有词典进行匹配分词。例如说,词典为“自然,语言,自然语言,处理,自然语言处理”,输入的sentence是“自然语言处理”,当设置max_len为6的时候,“自然语言处理”就会分成一个词,当设置max_len为5的时候,就会分为“自然语言,处理”。下面是简单的Python代码实现:class Segmentation: def __init__(self, vocab): ''' ...原创 2021-07-21 09:36:35 · 840 阅读 · 0 评论 -
【NLP | 机器学习】隐马尔科夫模型与代码实现
隐马尔可夫模型是关于时序的概率模型,由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列原创 2021-07-19 10:27:05 · 612 阅读 · 0 评论 -
朴素贝叶斯原理及其应用实现
先前在恶补机器学习算法的原理及实现,在此做一些总结记录。首先是贝叶斯法则: 其中,为先验概率,而表示为在事件A发生的情况下事件B发生的概率;在贝叶斯分类中,在得知后验概率(表示在某事件发生了,并且它属于哪个分类)的情况下,就可以对样本进行分类,后验概率越大则其为该分类的可能性越大。...原创 2021-05-28 08:17:38 · 458 阅读 · 0 评论 -
初入transformer,初步见解
Transformer来源于论文《Attention is All You Need》,自2017年推出来以后,热度一直高居不下,其相关的模型bert及包括各种bert的变种模型、GPT系列等等,一直在不断地刷新各种基础评测任务的评测指标。估计没有谁做nlp,而不了解的人了。作为初入nlp小白的我,自然也是感受到了它的强大,只是一直由于时间的约束,没有好好总结一番。Transformer从宏观来说,可以分为encode与decode两个部分,如下图所示,encode可以分为Multi-Head Atte原创 2020-11-11 16:47:29 · 799 阅读 · 0 评论