NER 中word数量和tag数量不一致解决方案以及tf.string_split用法

最新推荐文章于 2022-05-27 00:16:48 发布

Eric_LH

最新推荐文章于 2022-05-27 00:16:48 发布

阅读量912

点赞数

分类专栏： IT之路自然语言处理自然语言处理基础

本文链接：https://blog.csdn.net/Eric_LH/article/details/82631490

版权

IT之路同时被 3 个专栏收录

68 篇文章 1 订阅

订阅专栏

自然语言处理

16 篇文章 1 订阅

订阅专栏

自然语言处理基础

12 篇文章 2 订阅

订阅专栏

句子中有中文空格
而tf.string_split(source, delimiter=’ ‘)默认是英文空格
导致NER 中word数量和tag数量不一致。

tf.string_split(source, delimiter=' ')

source是一维数组，用于将一组字符串按照delimiter拆分为多个元素，返回值为一个SparseTensor。

假如有两个字符串，source[0]是“hello world”，source[1]是“a b c”，那么输出结果如下：

 st.indices： [0, 0; 0, 1; 1, 0; 1, 1; 1, 2]

 st.values： ['hello', 'world', 'a', 'b', 'c']

 st.dense_shape：[2, 3]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Eric_LH

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

dilated convolutions

Jiashilin

09-04

430

# encoding = utf-8 import numpy as np import tensorflow as tf from tensorflow.contrib.crf import crf_log_likelihood from tensorflow.contrib.crf import viterbi_decode from tensorflow.contrib.layers.py...

BILSTM+CRF实现命名实体识别NER

三人行必有我师的博客

09-03

8921

#第一步：数据处理 #pikle是一个将任意复杂的对象转成对象的文本或二进制表示的过程。 #同样，必须能够将对象经过序列化后的形式恢复到原有的对象。 #在 Python 中，这种序列化过程称为 pickle， #可以将对象 pickle 成字符串、磁盘上的文件或者任何类似于文件的对象， #也可以将这些字符串、文件或任何类似于文件的对象 unpickle 成原来的对象。 import sys, p...

参与评论您还未登录，请先登录后发表或查看评论

TensorFlow数据结构操作之：tf.string_split函数

xinjieyuan的博客

05-30

1万+

顾名思义，这是对tersor(张量)格式的string(字符串)进行操作的函数,并且返回的是稀疏张量--稀疏张量就是稀疏矩阵！只不过是Tensor的格式 ''' 稀疏矩阵与稠密矩阵：我们知道自然语言处理中有One-hot和词向量两个表示方法这个One-hot就是稀疏矩阵的一种，词向量就是稠密矩阵的一种注意！！我们下面说的稀疏矩阵和这个one-hot一点关系都没有上面one-hot和词...

tf.string_split使用

未来战警

09-17

4753

tensorflowstring_split使用，不懂的方法覺得還是看源碼來的快先看源碼位置：源碼如下： @tf_export("string_split") def string_split(source, delimiter=" ", skip_empty=True): # pylint: disable=invalid-name """Split element...

tf.strings.split

ustbbsy的博客

05-11

937

tf.strings.split lines = tf.strings.split(line, '\n') 输入是list格式输出是一个SparseTensorValue对象 SparseTensorValue(indices, values=array( ,dtype), dense_shape) 拿结果 lines.values

TensorFlow. 字符串拆分 tf.string_split()

weixin_37804469的博客

12-16

1772

函数原型： tf.string_split(source, delimiter=’ ', skip_empty=True) 参数： source：一维tensor 对象，其数据类型为tf_string，作为需要被分割的字符串。这里要注意的是：输入的字符串必须以列表的格式传入，比如[‘I am Chinese’], 不用方括号[]括起来话，会报错。 delimiter=’ '：分割符,默认为空字符串 skip_empty=True：bool 型，表示是否跳过空的字符串输出包括3个值：

一个用于处理分隔","的函数tf_split_str

caobin518的专栏

04-27

1504

--1. 建立测试数据--1.1 create table TypeAdvCREATE TABLE TypeAdv ( id int, TypeName varchar(200))--1.2 insert datainsert into TypeAdv(id,TypeName) values(1,电脑网络)insert into TypeAdv(id,TypeName) value

CORD-19数据集以及相关分析代码介绍

weixin_41089007的博客

05-01

4749

写在前面最近发现了一个有关新冠疫情的数公开据集，CORD-19。CORD-19是有关COVID-19和相关历史冠状病毒研究的不断增长的科学论文资源。 CORD-19旨在通过其丰富的元数据和结构化全文本来促进文本挖掘和信息检索系统的开发。自发布以来，CORD-19已下载超过75,000次，并已成为许多COVID-19文本挖掘和发现系统的基础。在本文中，我们描述了数据集构建的机制，重点介绍了挑...

自然语言处理实战-基于LSTM的藏头诗和古诗自动生成

Jeason666666的博客

05-27

3177

自然语言处理，LSTM，藏头诗

中文NLP数据预处理程序分享

MrLittleDog的博客

01-15

6272

转眼间，接触NLP已经一年多了，虽然大部分时间是在打杂，但也多少积累了一点东西。今天在这里我就把我自己写的中文NLP数据预处理代码分享一下，代码基于python 3.6.5在win 10通过测试，涵盖了我自己常用的一些操作。程序大致包括的功能如下表：文件操作去噪操作其他读写文本删除空行分词合并文件删除中英文标点词性标注分割数据集删除停用词命名实体识...

String.split()用法的一点经验

iteye_10359的博客

05-06

269

看了老紫竹的一篇文章，关于String split方法的大家平时可能使用这么用 String.split("//|"); String s="101494|360103660318444|2008/06/17|周润英|1292.0|3085.76|2778.28|912.91|106.0|||"; 这么用可以，但是最后面得空的部分就没法显示了！可以用另一个spl...

string_split

tianmo2010的专栏

05-17

3501

string_split的实现： void string_split(const std::string &str, const std::string &sep, std::vector *strs, bool ignore_empty) { if (strs == NULL) { return ; } int start = 0; std::string temp = "

深度学习 - 22.TF TF1.x tf.string_split VS TF2.x tf.strings.split

BITDDD小栈

07-08

804

一.引言开发时同时用到了TF1与TF2，使用中发现 split 函数在V1和V2中有一些区别，记录一下。二.TF1.x tf.string_split 1.使用 Input: 对字符串数组进行分割，默认分隔符为" "，skip_empty代表是否忽略空字符创 Output: 返回一个SparseTensor def string_split(source, delimiter=" ", skip_empty=True): delimiter = ops.convert_to_ten

java解惑之再谈String.split()

琼华

04-16

2892

import java.util.*; public class Sixty{ public static void main(String[] args){ String s = "sur,hs dg,fdg, d ,fd, d,d,dasg,ds"; String[] t = s.split(",\\s*");

TensorFlow2.0取消string_split()

weixin_43315492的博客

12-15

414

字符串分割函数： TensorFlow1.0+：tf.string_split TensorFlow2.0+：tf.strings.split

【Tensorflow】TF中的字符串tf.string

不用先生的博客

09-23

1万+

目录 string 的定义 string 类型常用的函数 tf.as_string() tf.substr() tf.string_to_number() tf.string_split() tf.string_join() tf.reduce_join() 总结 Tesorflow 版本：1.7.0,1.14.0 string 的定义 Tensorflow ...

tf.split函数的用法