NLP
文章平均质量分 60
phynikesi
主要从事NLP研究与工作,对算法和一些新奇的创意感兴趣,喜欢但不限于IT行业的有趣现象
展开
-
Hugging Face之ckip实体识别标注体系整理
ckip-ner实体标注及示例CARDINAL -- 数字 【'九百多', '8000', '八百','1111.01'】DATE -- 大粒度时间,时间段 【 '今年', '明天', '今天', '国庆期间', '3天', '10天', '三年前'】EVENT -- 事件 【'伦敦奥运会', '世界杯','第14届中国国际工业博览会', '深圳市五届人大二次会议'】FAC -- 小地点 【'轻轨1号线锡北运河站', '万达广场', '乐购超市','永盛大酒店', '110岗亭'】GPE原创 2021-04-20 19:49:18 · 775 阅读 · 1 评论 -
TensorFlow之saved_model使用笔记
signature设置x1 = tf.placeholder(tf.int32, shape=[None, None], name='x1')x2 = tf.placeholder(tf.int32, shape=[None, None], name='x2')……y = output_tensorloss = loss_tensorinputs = { 'x1': tf.saved_model.utils.build_tensor_info(x1),原创 2021-03-08 09:47:55 · 680 阅读 · 2 评论 -
tf.sequence_mask与tf.expand_dims
tf.sequence_mask()函数sequence_mask( lengths, # 掩码的长度序列,内部元素为整数 maxlen=None, # 返回数据的最内层数据维度,整数 dtype=tf.bool, # 数据类型,默认为布尔型 name=None # 操作的命名示例:a = tf.sequence_mask(3, dtype=tf.float32)out: [1, 1, 1]# maxlen默认为l.原创 2021-02-22 11:07:49 · 193 阅读 · 2 评论 -
文本摘要之Textrank优化方案
当前文本摘要的处理方式主要分为两类:抽取式和生成式。 抽取式文本摘要:即从篇章中抽取能够代表核心意思的信息,或者抽取关键词再连句,或者抽取完整句子。一般情况下,由词直接连成的句子,往往比较生硬,不够通顺,抽取的句子句义连贯,能比较有效的代表篇章信息。生成的方法理论上可以兼顾关键词信息和句子的自然属性,如通顺,连贯。抽取式文本摘要代表:TextRank方法,利用文章内部的联系计算出重要的词或句子。生成式文本摘要代表:Seq2eq +Attention,借助深度学习方法学习文章主要...原创 2021-01-10 12:33:41 · 1522 阅读 · 0 评论 -
TF之saved-model踩坑,多次保存模型必看
目录前言正文总结前言近期使用了Tensorflow的saved_model模块,踩过一些坑,总结分享一下。参考了很多资料,部分代码也是照搬,事先说明一下,谢谢各位大佬分享的资料。时间长的同学可以从头看,时间短的同学可以跳转文末看总结。正文Saved_model模块用于保存加载模型,一般配合TensorFlow Serving使用。TF Serving是一个将训练好的模型部署至生产环境的系统,主要的优点在于可以保持Server端与API不变的情况下,部署新的算法或进行原创 2021-01-08 10:59:32 · 7861 阅读 · 2 评论 -
结合词性标注的NER(命名实体识别)方案设计
NER(Named Entity Recognition)即命名实体识别,是指识别文本中具有特定意义的实体,如人物、地点、组织、时间和数字等,属于信息抽取的一部分。目前,NER主要在多轮对话项目中应用,用于自动获取词槽所需的实体信息。如:“我想订一张下周一从北京回上海的机票”。在这个例子中按顺序抽取,依次可得<[数字:一],[时间:下周一],[地点:北京],[地点:上海],[订单:机票]>,这些信息并非直接可用,还需进行一定的转换,变为规范数据才能使用。数字通常要转为阿拉伯数字[0-原创 2020-11-11 20:27:17 · 1524 阅读 · 6 评论 -
深度学习模型训练的一般方法(以DSSM为例)
本文主要记录DSSM模型学习期间遇到的问题及结局方案,在此基础上总结了深度学习模型训练的一般思路,对小白有些意义,欢迎各路大神指教。原创 2020-07-29 23:19:03 · 1692 阅读 · 5 评论