![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据预处理
自然语言处理(数据预处理)
厄运鹰人
NLP学徒
展开
-
数据预处理流程(NLP)
真实类别标签构建标签索引字典。构建字符索引字典将输入句子切分为字符级别,然后生成字符级别的索引字典(通过索引找词,通过索引找向量方便)。将输入句子转换为索引补齐和截断,补齐时(补齐的索引不重要,需要设置一下标志符区分,以区分真实字符索引)以上数据如何放到模型中?词嵌入层(embedding编码)对词语进行embedding得到向量输入:[batch_size,seq_length]输出:[batch_size,seq_length,dim]融入其他特征信息到词嵌入层中位置信息:位置原创 2021-09-05 20:31:35 · 459 阅读 · 0 评论 -
深度学习数据预处理
常用代码分析:1.读取Csv文件返回的是OrderedDict格式dialect = ‘excel-tab’ if is_tsv else ‘excel’with open(fp, encoding=‘utf-8’) as f:reader = csv.DictReader(f, dialect=dialect)return list(reader)2.存储为二进制格式:with open(fp, ‘wb’) as f:pickle.dump(data, f)封装数据:1.pytorc原创 2020-10-18 16:07:57 · 1034 阅读 · 0 评论 -
SEED随机种子详解
随机种子作用在神经网络中,参数默认是进行随机初始化的。不同的初始化参数往往会导致不同的结果,当得到比较好的结果时我们通常希望这个结果是可以复现的,在pytorch中,通过设置随机数种子也可以达到这么目的。有的时候,不同的随机种子对应的神经网络结果不同,我们并不想固定随机种子,使其能够搜索最优结果。但是又想能够根据复现最优结果,所以我们需要每次运行代码都根据当前时间设定不同的随机种子,并将随机种子保存下来。主要用于复现之前跑的结果。例子: 在使用PyTorch时,如果希望通过设置随机数种子,在gp原创 2021-01-07 20:59:25 · 2800 阅读 · 1 评论 -
训练数据随机打乱方法
打乱数据(对list处理)RANDOM_SEED = 2019#只要数字一样,得到的随机数也是一样的random_order = list(range(len(train_data)))np.random.seed(RANDOM_SEED)#随机种子,在一个参数上变换值np.random.shuffle(random_order)#将得到的顺序随机打乱train_data = [train_data[i] for i in random_order]分析:train_data是训练集,计算长度原创 2021-08-24 15:07:26 · 1355 阅读 · 0 评论