自然语言处理
L枷锁T
这个作者很懒,什么都没留下…
展开
-
预训练模型总结
预训练语言模型原创 2023-01-30 17:44:40 · 408 阅读 · 0 评论 -
【HMM和CRF的异同】
HMM和CRF的简介原创 2022-11-03 16:19:03 · 1066 阅读 · 0 评论 -
【CRF命名实体识别】
CRF原创 2022-11-02 17:10:45 · 231 阅读 · 0 评论 -
【基于HMM的命名实体识别】
本文为HMM原理原创 2022-11-02 16:05:35 · 503 阅读 · 0 评论 -
NLP数学基础
1.统计学数据度量标准(平均数、中位数(一组数据中,最中间位置的数)、众数(一组数据中出现数据次数最多的数)、期望(均值)、方差(衡量一组随机变量的离散程度)、标准差(方差的算术平方根))图形可视化(饼图、条形图、热力图、折线图、箱线图、散点图、雷达图、仪表盘)概率分布(几何分布、二项分布、正态分布(高斯分布,期望为0,标准差为1的是标准正态分布)、泊松分布)统计假设检验2.线性代数向量、 矩阵、距离计算(余弦距离、欧式距离、曼哈顿距离、明可夫斯基距离、切比雪夫距离、杰卡德距离、汉明距离、标准欧原创 2022-10-28 15:08:52 · 268 阅读 · 0 评论 -
文本相似度
编辑距离编辑距离,英文叫做 Edit Distance,又称 Levenshtein 距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。编辑操作有三种,插入;删除;替换。其效果如下图所示,编辑距离更加注重句子形式上的一致,并未考虑其含义。from time import *import distanceimport jsond...原创 2019-08-30 13:04:14 · 460 阅读 · 0 评论 -
实体关系抽取入门
引言:信息抽取(Information Extraction,IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。信息抽取的主要任务有:命名实体识别、实体关系抽取、事件抽取、实体消歧。关系抽取(Relation Extracion,RE)是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识...原创 2019-03-13 16:52:39 · 14055 阅读 · 1 评论 -
Joint entity and relation extraction based on a hybrid neural network论文研读
作者: Suncong Zheng, Yuexin Hao等人论文地址: https://doi.org/10.1016/j.neucom.2016.12.075摘要: 实体和关系抽取是一个可以从无结构的文本中联合检测实体和识别实体间的语义关系的任务。*我们提出了一个混合的神经模型,在没有任何手工特征的情况下抽取实体以及它们之间的关系。*这个混合的神经网络模型包含了一个用来实体抽取的novel...原创 2019-03-14 11:58:19 · 1732 阅读 · 0 评论 -
哈工大语言技术平台LTP的用法
@[枷L锁]哈工大语言技术平台LTP的用法简介:哈工大的语言技术平台 (LTP)提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。用法:官方提供了Java、C++、python、C#、Ruby接口,这篇使用方法是关于python接口pyltp的。首先需要下载模型文件,然后就是安装pyltp,模型文件下载地址:https://pan.ba...原创 2018-12-11 18:44:45 · 3506 阅读 · 1 评论 -
正则表达式基础
简介:**在自然语言处理中,文本数据通常含有很多无关和无意义字符,比如链接、@符号等,通常叫做噪声,这些噪声会影响我们的nlp任务,所以我们一般会用正则表达式去匹陪字符并删除。在使用正则表达式的时候需要导入re模块,本次使用re.search匹配字符串。正则表达式匹配字符串:在python中,我们使用re.search(regex,string)方法匹配字符串,通过这个方法,我们可以查看st...原创 2018-12-14 09:42:10 · 240 阅读 · 0 评论