机器学习
Chen__Wu
这个作者很懒,什么都没留下…
展开
-
xgboost基本思想、节点分裂与公式详解
一、简单理解xgboost基本思路xgboost融合了集成的思想,是n棵树模型的融合。比如下图,首先生成tree1模型,再生成tree2模型,然后再把这两个简单的模型最终得分累加起来,作为对应的数据的预测得分。如下图的判断一个人是否爱玩游戏,男孩在tree1这边的树模型,从叶子结点可知得分是2,在tree2模型可知得分是0.9.则男孩的累积得分是2.9。(实际模型中还可根据情况进行加权累积)。老爷爷这个角色也同理,在tree1得分为-1,在tree2得分为0.9,累积得分0.1。而tree1生成1和t原创 2020-05-24 20:59:24 · 3949 阅读 · 0 评论 -
命名实体识别 notebook
1、方法步骤先通过 CRF 进行分词,在分词的基础上再利用双向 LSTM 模 型 ( bi-directional long short-term memory,BI-LSTM) 进行命名实体识别。在进行中文分词的时候 使用 CRF 模型,可以同时考虑词语出现的频率和上 下文语境,因此具备了较好的上下文融合能力,同时 CRF 对于歧义词和未登录词也具有良好的识别效果。弥补神经网络特征学习不足的...原创 2019-07-18 14:03:17 · 191 阅读 · 0 评论 -
命名实体识别的三中标注方法BIO,BIOES,BMES
一、BMES 四位序列标注法B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词。我/S 是/S 广/B 东/M 人/E (符号标注,‘东’是‘广’和‘人’的中间部分,凑成‘广东人’这个实体)我/ 是/ 广东人/ (标注上分出来的实体块)二、BIO 三位标注(B-begin,I-inside,O-outsid...原创 2019-07-18 14:11:35 · 21824 阅读 · 3 评论 -
基于双链式条件随机场(2-CRF)的联合多词表达识别抽取(论文解读)+Bi-LSTM+CRF实现多词表达抽取(代码实践)
一、Introduction将文本切分为最小的单元与用语义类标记这些单元密切相关。原创 2019-07-20 22:25:20 · 616 阅读 · 0 评论