Diobld-CSDN博客

在Python中，按位运算符用于对二进制数中的每一位进行操作。Python中的按位运算符包括以下几个：1、按位与（&）：对操作数的每一个二进制位执行逻辑与操作，只有当两个操作数的相应位都为1时，结果才为1。例如，3 & 5的结果为1。2、按位或（|）：对操作数的每一个二进制位执行逻辑或操作，只要两个操作数的相应位有一个为1，结果就是1。例如，3 | 5的结果为7。3、按位异或（^）：对操作数的每一个二进制位执行逻辑异或操作，只有当两个操作数的相应位不相同时，结果才为1。例如，3 ^ 5的结果为6。

2023-05-02 20:15:13 503

原创 TorchCRF库出现‘mask of the first timestep must all be on‘错误

torchcrf错误处理

2023-03-14 19:38:43 1948

原创 1366 Incorrect string value: ‘\xE6\x9F\xB3\xE5\xB2\xA9...‘ for column ‘name‘ at row 1数据插入失败

1366 数据库插入失败

2023-03-14 15:53:37 386

原创 python 项目虚拟环境及打包

python 项目虚拟环境及打包

2023-02-12 06:04:44 581

原创 pip安装python包到指定文件夹

对项目依赖python包进行打包

2022-09-16 23:38:14 2426

原创 Python requests的post请求

params是用来发送查询字符串，而data、json是用来发送正文的。这两种参数post方法都可以用，get方法只能发查询字符串，不能发送正文。params会将参数key、value拼接在url后；json表示使用application/json方式提交请求。接收方request.body的内容为’{“a”1,“b”2}'的这种形式；data表示使用application/form-urlencode方式提交请求，接收方request.body的内容为a=1&b=2的这种形式；...

2022-07-17 18:14:20 1110

原创【NLP】keras实现IMDB电影评论分类

MDB 数据集包含来自互联网电影数据库（IMDB）的 50 000 条严重两极分化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论，训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。train_labels 和 test_labels 都是 0 和 1 组成的列表，其中 0代表负面（negative），1 代表正面（positive）数据预处理keras自带了IMDB的数据集，可直接使用load_data进行加载。返回：参数:......

2022-06-24 19:27:09 675

原创用K-Means和DBSCAN算法对西瓜数据集4.0进行聚类分析

用K-Means和DBSCAN算法对西瓜数据集4.0进行聚类分析

2022-06-22 22:39:48 3674 6

原创重参数化技巧：高斯分布采样

我们现在得到了有样本X得到的分布X ~ N(μ\muμ, σ\sigmaσ^2)，通过采样我们得到确定的隐变量向量，从而作为解码器的输入。采样这个操作本身是不可导的，但是我们可以通过重参数化技巧，将简单分布的采样结果变换到特定分布中，如此一来则可以对变换过程进行求导。具体而言，我们从标准高斯分布中采样，并将其变换到X ~ N(μ\muμ, σ\sigmaσ^2)，过程如下：ϵ\epsilonϵ ~N(0,I)N(0, I)N(0,I)Z=μ+σ×ϵZ=\mu +\sigma × \epsilonZ=μ+σ

2022-05-31 22:53:22 9160 2

原创 pip安装换清华源

用python的pip安装时有些包安装的太慢了。解决的方法是：换成清华源。pip install 要安装的包 -i https://pypi.tuna.tsinghua.edu.cn/simple或者直接替换下载源设置清华源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple...

2022-04-28 17:13:09 5448

原创论文阅读《Bidirectional LSTM-CRF Models for Sequence Tagging》

论文地址：《Bidirectional LSTM-CRF Models for Sequence Tagging》文章目录论文阅读研究背景BI-LSTM-CRF 网络训练流程实验结果对比结论论文阅读研究背景序列标记包括部分语音标记(POS)、分块和命名实体识别(NER)，一直是一项经典的NLP任务。现有的序列标记模型大多是线性统计模型，其中包括隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMMs）和条件随机场(CRF)。以及基于卷积网络的模型被提出来解决序列标记问题。本文首次将BI-LSTM-C

2022-04-17 15:58:16 1125

原创 python单元测试

分别为函数测试和类测试断言方法方法用途assertEqual(a, b)核实a == bassertNotEqual(a, b)核实a != bassertTrue(x)核实x为TrueassertFalse(x)核实x为FalseassertIn(item, list)核实item在list中assertNotIn(item, list)核实item不在list中测试方法要以 test 开头函数测试# name_.pydef g

2022-04-15 22:49:22 1620

原创 AEDA: An Easier Data Augmentation Technique for Text Classification

论文地址：AEDA: An Easier Data Augmentation Technique for Text Classification文章目录论文阅读论文介绍AEDA Augmentation总结和未来工作论文阅读论文介绍本文提出了AEDA（一种更简单的数据增强）技术来帮助提高文本分类任务的性能。为了构建性能良好的文本分类器，训练数据需要足够大，以便模型能够泛化到看不见的数据。简而言之就是对于文本分类任务来说，在句子中插入一些标点符号是最强的数据扩增方法。AEDA Augmentatio

2022-04-10 22:45:46 503

原创【蓝桥杯】【dfs】路径之谜

原题链接n = int(input())col_ = list(map(int,input().strip().split()))row_ = list(map(int,input().strip().split()))# 路径标配记录矩阵martix =[[0 for j in range(n)]for i in range(n)]ans=[]# 移动方式move=[(-1,0),(1,0),(0,-1),(0,1)]# 记录射击情况rc_ = [[0 for i in range(

2022-04-02 18:22:49 315

原创 Transformers 如何保存并加载模型

由于自己经常忘记如何保存Transformers中的模型，故在此纪录一下官方提供的例子。output_model_file = "./models/my_own_model_file.bin"output_config_file = "./models/my_own_config_file.bin"output_vocab_file = "./models/my_own_vocab_file.bin"# 步骤1：保存一个经过微调的模型、配置和词汇表#如果我们有一个分布式模型，只保存封装的模型

2022-04-01 22:22:57 4734 1

原创论文阅读《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》

论文地址：《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》文章目录论文阅读论文介绍Factorized embedding parameterizationCross-Layer Parameter SharingSentence-Order Prediciton (SOP)Adding Data & Remove Dropout总结论文阅读论文介绍在对自然语言表示进行预训练时，增加模

2022-03-27 16:28:55 1149

原创【蓝桥杯】【dp/dfs】走方格

DFSn,m = map(int,input().strip().split())vis = [[0 for j in range(m)] for i in range(n)]# martix =[[0 for j in range(m)] for i in range(n)]ans=0move=[(0,1),(1,0)]def dfs(x,y): global ans if x==n-1 and y == m-1: ans+=1 retur

2022-03-26 15:48:51 388

原创【蓝桥杯】【dp】路径

dp[i]表示第i点到1点的距离import mathdp =[ 0 for i in range(2022)]for i in range(2,23): dp[i] = idef lcd(a,b): gcd = math.gcd(a,b) return (a*b)//gcdfor i in range(23,2022): min=math.inf for j in range(1,22): if (dp[i-j]+lcd(i-j,i).

2022-03-22 17:22:41 711

原创数据预处理：去标点符号

我们在进行nlp任务时都需要进行数据清洗，我们可以简单的选择string.punctuaion直接去除符号，但是有时候会，文本中不仅仅只有英文符号，因此一般的做法时自定义要去除的符号。方法如下：#定义符号punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”？，！【】（）、。：；’‘……￥·"""#转换字典dicts={i:'' for i in punctuation}#maketrans是按照转换字典制作转换表punc_t

2022-03-18 21:45:56 1272

原创 transformers的分词工具BertTokenizer encode_plus参数

from transformers import BertTokenizer#uncased是不支持小写tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)encoded_dict = tokenizer.encode_plus( sent, # Sentence to encode. .

2022-03-18 21:37:39 5428 4

原创加载自定义pytorch数据集

from data.uila = torch.tensor([[11, 22, 33], [44, 55, 66], [77, 88, 99], [11, 22, 33], [44, 55, 66], [77, 88, 99], [11, 22, 33], [44, 55, 66], [77, 88, 99], [11, 22, 33], [44, 55, 66], [77, 88, 99]])b = torch.tensor([0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2])

2022-03-17 16:26:15 1271

原创【蓝桥杯】【DFS】左son右兄弟

题目描述对于一棵多叉树，我们可以通过 “左孩子右兄弟” 表示法，将其转化成一棵二叉树。如果我们认为每个结点的子结点是无序的，那么得到的二叉树可能不唯一。换句话说，每个结点可以选任意子结点作为左孩子，并按任意顺序连接右兄弟。给定一棵包含 N 个结点的多叉树，结点从 1 至 N 编号，其中 1 号结点是根，每个结点的父结点的编号比自己的编号小。请你计算其通过 “左孩子右兄弟” 表示法转化成的二叉树，高度最高是多少。注：只有根结点这一个结点的树高度为 0 。例如如下的多叉树：可能有以下 .

2022-03-16 10:38:12 911

原创【蓝桥杯】【BFS/DFS】全球变暖

题目描述你有一张某海域NxN像素的照片，"."表示海洋、"#"表示陆地，如下所示：........##.....##........##...####....###........其中"上下左右"四个方向上连在一起的一片陆地组成一座岛屿。例如上图就有2座岛屿。由于全球变暖导致了海面上升，科学家预测未来几十年，岛屿边缘一个像素的范围会被海水淹没。具体来说如果一块陆地像素与海洋相邻(上下左右四个相邻像素中有海洋)，它就会被淹没。例如上图中的海域未来会变成如下样子：........

2022-03-15 20:07:15 112

原创【蓝桥杯】【动态规划】砝码称重

题目描述你有一架天平和 N 个砝码，这 N 个砝码重量依次是 W1, W2, · · · , WN。请你计算一共可以称出多少种不同的重量？注意砝码可以放在天平两边。输入输入的第一行包含一个整数 N。第二行包含 N 个整数：W1, W2, W3, · · · , WN。输出输出一个整数代表答案。样例输入31 4 6样例输出10提示【样例说明】能称出的 10 种重量是：1、2、3、4、5、6、7、9、10、11。1 = 1；.

2022-03-15 17:44:53 1109

原创 pytorch模型保存与加载

加载/保存状态字典class RNN(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim): super(RNN, self).__init__() self.embedding = nn.Embedding(vocab_size, embedding_dim) #单词数，嵌入向量维度 self.embedding.weight

2022-03-13 23:00:21 1385

原创论文阅读《Language Models are Unsupervised Multitask Learners》

论文地址：《Language Models are Unsupervised Multitask Learners》代码地址：https://github.com/openai/gpt-2文章目录论文介绍模型框架实验分析结论论文介绍本文将常识推理和情感分析两项任务联系起来，采取更一般的方法。证明了语言模型可以在zero-shot下无需任何参数或架构的修改执行下游任务。模型框架核心依旧是Language Modeling，形式化为，从中可以学习到。单任务预测形式化为p(output|inpu

2022-03-12 21:38:48 1468

原创论文阅读《Improving Language Understanding by Generative Pre-Training》

论文地址：《Improving Language Understanding by Generative Pre-Training》论文介绍本论文探索一种基于半监督解决语言理解任务方法，使用无监督预训练和监督微调。目标是从大量未标注语料库学习一种普遍的表征，不要求目标任务与未标注语料库在相同领域。训练分为两个阶段：首先，在未标注数据上使用语言建模来学习神经网络模型的初始化参数。随后，使用目标任务来进行监督学习。该模型体系结构基于Transformer，在四种类型语言理解任务上——自然语言推理、问题回答、

2022-03-05 22:23:46 1778

Diobld的博客

原创 juypter打开的位置

原创 Python中的按位运算符和如何表示各进制数