NLP
文章平均质量分 51
neu_eddata_yjzhang
neu_yjzhang@163.com
展开
-
【问题记录】json.decoder.JSONDecodeError:Extra data: line xxx column xxx(char xxxx)
这个报错一般都出现在解析的json文件格式不对,有特殊字符或者一次性读取的文件过大。(个人认为第一种情况更有可能,因为我的文件数据量就有十多万条,正常打开也没问题)一开始,我想使用如下命令打开json格式的文件 with open(data_path) as fp_data: raw_problems = json.load(fp_data)但是会保存json解码过程出现错误,Extra data: line 8 column 1(char 190)。这个原创 2021-12-28 10:45:03 · 5063 阅读 · 2 评论 -
【PYTORCH】RuntimeError: one of the variables needed for gradient computation has been
此次实验的环境为pytorch=1.4.0。这个错误的原因在于pytorch的自动求导机制,在求loss的时候,由于我的loss写成了loss = loss_0 + loss_1这样可能可能对pytorch的自动求导机制造成了迷惑,于是我将上面一句话改成下述代码后,程序就可以正常执行了,但是具体的效果是否和上面等同,目前还不确定。loss = loss_0.backward() + loss_1.backward() ...原创 2021-12-28 10:17:37 · 1521 阅读 · 4 评论 -
【PYTHON】strip()方法、spilt()方法、count()方法
Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符Pythonsplit()通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串下面举例来实现一下text = " 镇海 雅乐 学校 二年级 的 小朋友 到 一条 小路 的 一边 植树 . 小朋友 们 每隔 2 米 种 一棵树 ( 马路 两头 都 种 了 树 ) , 最后 ..原创 2021-12-14 13:42:02 · 1878 阅读 · 0 评论 -
【PYLTP】pyltp(SentenceSplitter、Segmentor、Postagger、NamedEntityRecognizer、Parserr)个人理解(含可执行代码)
此博客均为对下面这个文档的复现,非原创!!!!使用 pyltp — pyltp 0.2.0 文档附录 — LTP4 4.1.4 文档1.安装pyltp 首先激活你的虚拟环境,然后输入下面语句即可,如果出现问题的话可以更换为清华源。pip install pyltp然后下载你自己所需要的ltp模型,这里附上3.4.0版本的http://model.scir.yunfutech.com/model/ltp_data_v3.4.0.zip2.使用的简单举例2.1分句..原创 2021-12-14 10:38:10 · 5200 阅读 · 2 评论 -
【Pytorch】Pytorch的PackedSequence()类
其官方文档如下:PackedSequence — PyTorch 1.10.0 documentation其解释为:将一个填充过的变长序列压紧。其参数分别为:data:要压紧的张量batch_sizes:源张量的维度信息。batch_first:是否坚持批次优先实验结果如下:import numpy as npimport torchfrom torch.nn.utils.rnn import pack_padded_sequence,pad_packed_seq.原创 2021-12-13 15:29:44 · 1364 阅读 · 0 评论 -
【SKLEARN】使用CountVector类来提取词频特征,并计算其TF-IDF特征(含可执行代码)
其官方文档给出的解释如下:sklearn.feature_extraction.text.CountVectorizer — scikit-learn 1.0.1 documentation我的个人理解为:将文本文档转化为token计数矩阵。并且如果不提供先验词典,也不使用进行某种特征选择的分析器,则特征的数量将等于通过分析数据找到的词汇表大小。下面附上我的实验结果,下文用到的vocabulary_方法是生成文本与其对应特征索引的映射。通过实验结果分析我们可以看到,我们生成了一个Cou.原创 2021-12-12 20:34:17 · 1808 阅读 · 0 评论