自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 juypter打开的位置

juypter打开位置

2023-07-09 03:55:43 139

原创 Python中的按位运算符和如何表示各进制数

在Python中,按位运算符用于对二进制数中的每一位进行操作。Python中的按位运算符包括以下几个:1、按位与(&):对操作数的每一个二进制位执行逻辑与操作,只有当两个操作数的相应位都为1时,结果才为1。例如,3 & 5的结果为1。2、按位或(|):对操作数的每一个二进制位执行逻辑或操作,只要两个操作数的相应位有一个为1,结果就是1。例如,3 | 5的结果为7。3、按位异或(^):对操作数的每一个二进制位执行逻辑异或操作,只有当两个操作数的相应位不相同时,结果才为1。例如,3 ^ 5的结果为6。

2023-05-02 20:15:13 336 1

原创 TorchCRF库出现‘mask of the first timestep must all be on‘错误

torchcrf错误处理

2023-03-14 19:38:43 1387

原创 1366 Incorrect string value: ‘\xE6\x9F\xB3\xE5\xB2\xA9...‘ for column ‘name‘ at row 1数据插入失败

1366 数据库插入失败

2023-03-14 15:53:37 264

原创 python 项目虚拟环境及打包

python 项目虚拟环境及打包

2023-02-12 06:04:44 482

原创 pip安装python包到指定文件夹

对项目依赖python包进行打包

2022-09-16 23:38:14 2270

原创 Python requests的post请求

params是用来发送查询字符串,而data、json是用来发送正文的。这两种参数post方法都可以用,get方法只能发查询字符串,不能发送正文。params会将参数key、value拼接在url后;json表示使用application/json方式提交请求。接收方request.body的内容为’{“a”1,“b”2}'的这种形式;data表示使用application/form-urlencode方式提交请求,接收方request.body的内容为a=1&b=2的这种形式;...

2022-07-17 18:14:20 1023

原创 【NLP】keras实现IMDB电影评论分类

MDB 数据集包含来自互联网电影数据库(IMDB)的 50 000 条严重两极分化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论,训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。train_labels 和 test_labels 都是 0 和 1 组成的列表,其中 0代表负面(negative),1 代表正面(positive)数据预处理keras自带了IMDB的数据集,可直接使用load_data进行加载。返回:参数:......

2022-06-24 19:27:09 604

原创 用K-Means和DBSCAN算法对西瓜数据集4.0进行聚类分析

用K-Means和DBSCAN算法对西瓜数据集4.0进行聚类分析

2022-06-22 22:39:48 3205 6

原创 重参数化技巧:高斯分布采样

我们现在得到了有样本X得到的分布X ~ N(μ\muμ, σ\sigmaσ^2),通过采样我们得到确定的隐变量向量,从而作为解码器的输入。采样这个操作本身是不可导的,但是我们可以通过重参数化技巧,将简单分布的采样结果变换到特定分布中,如此一来则可以对变换过程进行求导。具体而言,我们从标准高斯分布中采样,并将其变换到X ~ N(μ\muμ, σ\sigmaσ^2),过程如下:ϵ\epsilonϵ ~N(0,I)N(0, I)N(0,I)Z=μ+σ×ϵZ=\mu +\sigma × \epsilonZ=μ+σ

2022-05-31 22:53:22 7555 2

原创 pip安装换清华源

用python的pip安装时有些包安装的太慢了。解决的方法是:换成清华源。pip install 要安装的包 -i https://pypi.tuna.tsinghua.edu.cn/simple或者直接替换下载源设置清华源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple...

2022-04-28 17:13:09 4980

原创 论文阅读《Bidirectional LSTM-CRF Models for Sequence Tagging》

论文地址:《Bidirectional LSTM-CRF Models for Sequence Tagging》文章目录论文阅读研究背景BI-LSTM-CRF 网络训练流程实验结果对比结论论文阅读研究背景序列标记包括部分语音标记(POS)、分块和命名实体识别(NER),一直是一项经典的NLP任务。现有的序列标记模型大多是线性统计模型,其中包括隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMMs)和条件随机场(CRF)。以及基于卷积网络的模型被提出来解决序列标记问题。本文首次将BI-LSTM-C

2022-04-17 15:58:16 969

原创 python单元测试

分别为函数测试和类测试断言方法方法用途assertEqual(a, b)核实a == bassertNotEqual(a, b)核实a != bassertTrue(x)核实x为TrueassertFalse(x)核实x为FalseassertIn(item, list)核实item在list中assertNotIn(item, list)核实item不在list中测试方法要以 test 开头函数测试# name_.pydef g

2022-04-15 22:49:22 1518

原创 AEDA: An Easier Data Augmentation Technique for Text Classification

论文地址:AEDA: An Easier Data Augmentation Technique for Text Classification文章目录论文阅读论文介绍AEDA Augmentation总结和未来工作论文阅读论文介绍本文提出了AEDA(一种更简单的数据增强)技术来帮助提高文本分类任务的性能。为了构建性能良好的文本分类器,训练数据需要足够大,以便模型能够泛化到看不见的数据。简而言之就是对于文本分类任务来说,在句子中插入一些标点符号是最强的数据扩增方法。AEDA Augmentatio

2022-04-10 22:45:46 395

原创 【蓝桥杯】【dfs】路径之谜

原题链接n = int(input())col_ = list(map(int,input().strip().split()))row_ = list(map(int,input().strip().split()))# 路径标配 记录矩阵martix =[[0 for j in range(n)]for i in range(n)]ans=[]# 移动方式move=[(-1,0),(1,0),(0,-1),(0,1)]# 记录射击情况rc_ = [[0 for i in range(

2022-04-02 18:22:49 270

原创 Transformers 如何保存并加载模型

由于自己经常忘记如何保存Transformers中的模型,故在此纪录一下官方提供的例子。output_model_file = "./models/my_own_model_file.bin"output_config_file = "./models/my_own_config_file.bin"output_vocab_file = "./models/my_own_vocab_file.bin"# 步骤1:保存一个经过微调的模型、配置和词汇表#如果我们有一个分布式模型,只保存封装的模型

2022-04-01 22:22:57 4081 1

原创 论文阅读《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》

论文地址:《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》文章目录论文阅读论文介绍Factorized embedding parameterizationCross-Layer Parameter SharingSentence-Order Prediciton (SOP)Adding Data & Remove Dropout总结论文阅读论文介绍在对自然语言表示进行预训练时,增加模

2022-03-27 16:28:55 1057

原创 【蓝桥杯】【dp/dfs】走方格

DFSn,m = map(int,input().strip().split())vis = [[0 for j in range(m)] for i in range(n)]# martix =[[0 for j in range(m)] for i in range(n)]ans=0move=[(0,1),(1,0)]def dfs(x,y): global ans if x==n-1 and y == m-1: ans+=1 retur

2022-03-26 15:48:51 335

原创 【蓝桥杯】【dp】路径

dp[i]表示第i点到1点的距离import mathdp =[ 0 for i in range(2022)]for i in range(2,23): dp[i] = idef lcd(a,b): gcd = math.gcd(a,b) return (a*b)//gcdfor i in range(23,2022): min=math.inf for j in range(1,22): if (dp[i-j]+lcd(i-j,i).

2022-03-22 17:22:41 652

原创 数据预处理:去标点符号

我们在进行nlp任务时都需要进行数据清洗,我们可以简单的选择string.punctuaion直接去除符号,但是有时候会,文本中不仅仅只有英文符号,因此一般的做法时自定义要去除的符号。方法如下:#定义符号punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”?,!【】()、。:;’‘……¥·"""#转换字典dicts={i:'' for i in punctuation}#maketrans是按照转换字典制作转换表punc_t

2022-03-18 21:45:56 1068

原创 transformers的分词工具BertTokenizer encode_plus参数

from transformers import BertTokenizer#uncased是不支持小写tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)encoded_dict = tokenizer.encode_plus( sent, # Sentence to encode. .

2022-03-18 21:37:39 5090 3

原创 加载自定义pytorch数据集

from data.uila = torch.tensor([[11, 22, 33], [44, 55, 66], [77, 88, 99], [11, 22, 33], [44, 55, 66], [77, 88, 99], [11, 22, 33], [44, 55, 66], [77, 88, 99], [11, 22, 33], [44, 55, 66], [77, 88, 99]])b = torch.tensor([0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2])

2022-03-17 16:26:15 1212

原创 【蓝桥杯】【DFS】左son右兄弟

题目描述对于一棵多叉树,我们可以通过 “左孩子右兄弟” 表示法,将其转化成一棵二叉树。如果我们认为每个结点的子结点是无序的,那么得到的二叉树可能不唯一。换句话说,每个结点可以选任意子结点作为左孩子,并按任意顺序连接右兄弟。给定一棵包含 N 个结点的多叉树,结点从 1 至 N 编号,其中 1 号结点是根,每个结点的父结点的编号比自己的编号小。请你计算其通过 “左孩子右兄弟” 表示法转化成的二叉树,高度最高是多少。注:只有根结点这一个结点的树高度为 0 。例如如下的多叉树:可能有以下 .

2022-03-16 10:38:12 847

原创 【蓝桥杯】【BFS/DFS】全球变暖

题目描述你有一张某海域NxN像素的照片,"."表示海洋、"#"表示陆地,如下所示:........##.....##........##...####....###........其中"上下左右"四个方向上连在一起的一片陆地组成一座岛屿。例如上图就有2座岛屿。由于全球变暖导致了海面上升,科学家预测未来几十年,岛屿边缘一个像素的范围会被海水淹没。具体来说如果一块陆地像素与海洋相邻(上下左右四个相邻像素中有海洋),它就会被淹没。例如上图中的海域未来会变成如下样子:........

2022-03-15 20:07:15 73

原创 【蓝桥杯】【动态规划】砝码称重

题目描述你有一架天平和 N 个砝码,这 N 个砝码重量依次是 W1, W2, · · · , WN。请你计算一共可以称出多少种不同的重量?注意砝码可以放在天平两边。输入输入的第一行包含一个整数 N。第二行包含 N 个整数:W1, W2, W3, · · · , WN。输出输出一个整数代表答案。样例输入31 4 6样例输出10提示【样例说明】能称出的 10 种重量是:1、2、3、4、5、6、7、9、10、11。1 = 1;.

2022-03-15 17:44:53 984

原创 pytorch模型保存与加载

加载/保存状态字典class RNN(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim): super(RNN, self).__init__() self.embedding = nn.Embedding(vocab_size, embedding_dim) #单词数,嵌入向量维度 self.embedding.weight

2022-03-13 23:00:21 1285

原创 论文阅读《Language Models are Unsupervised Multitask Learners》

论文地址:《Language Models are Unsupervised Multitask Learners》代码地址:https://github.com/openai/gpt-2文章目录论文介绍模型框架实验分析结论论文介绍本文将常识推理和情感分析两项任务联系起来,采取更一般的方法。证明了语言模型可以在zero-shot下无需任何参数或架构的修改执行下游任务。模型框架核心依旧是Language Modeling,形式化为,从中可以学习到。单任务预测形式化为p(output|inpu

2022-03-12 21:38:48 1285

原创 论文阅读《Improving Language Understanding by Generative Pre-Training》

论文地址:《Improving Language Understanding by Generative Pre-Training》论文介绍本论文探索一种基于半监督解决语言理解任务方法,使用无监督预训练和监督微调。目标是从大量未标注语料库学习一种普遍的表征,不要求目标任务与未标注语料库在相同领域。训练分为两个阶段:首先,在未标注数据上使用语言建模来学习神经网络模型的初始化参数。随后,使用目标任务来进行监督学习。该模型体系结构基于Transformer,在四种类型语言理解任务上——自然语言推理、问题回答、

2022-03-05 22:23:46 1626

原创 dataFrame数据转化为张量

import pandas as pdimport torchtrain_data = pd.read_csv("./titanic/train.csv")features = ["Sex", "SibSp", "Parch",'Pclass']X = pd.get_dummies(train_data[features])a=torch.FloatTensor(X.values)

2022-03-03 16:59:09 1082

原创 【蓝桥杯】【真题】回文日期

题目描述2020 年春节期间,有一个特殊的日期引起了大家的注意:2020年2月2日。因为如果将这个日期按“yyyymmdd” 的格式写成一个8 位数是20200202,恰好是一个回文数。我们称这样的日期是回文日期。有人表示20200202 是“千年一遇” 的特殊日子。对此小明很不认同,因为不到2年之后就是下一个回文日期:20211202 即2021年12月2日。也有人表示20200202 并不仅仅是一个回文日期,还是一个ABABBABA型的回文日期。对此小明也不认同,因为大约100 年后就能遇.

2022-03-03 16:08:07 115

原创 如何处理数据集中的缺失数据

先观察各项特征分布情况import pandas as pdfeatures = [ "Sex","Age","SibSp", "Parch","Fare"]X = pd.get_dummies(train_data[features])X.info()1、缺失值较多的特征处理一般抛弃该特征,否则会带来噪声,对预测数据结果造成影响。2、缺失值较少的特征处理其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理,如下:方法1:把NaN直接作为一个特征,假设用0..

2022-03-02 23:06:07 1662

原创 【蓝桥杯】【真题】危险系数

题目描述问题描述抗日战争时期,冀中平原的地道战曾发挥重要作用。地道的多个站点间有通道连接,形成了庞大的网络。但也有隐患,当敌人发现了某个站点后,其它站点间可能因此会失去联系。我们来定义一个危险系数DF(x,y):对于两个站点x和y (x != y), 如果能找到一个站点z,当z被敌人破坏后,x和y不连通,那么我们称z为关于x,y的关键点。相应的,对于任意一对站点x和y,危险系数DF(x,y)就表示为这两点之间的关键点个数。本题的任务是:已知网络结构,求两站点之间的危险系数。输...

2022-02-27 21:53:30 169

原创 【蓝桥杯】【真题】剪格子

题目描述历届试题 剪格子时间限制:1.0s 内存限制:256.0MB 问题描述如下图所示,3 x 3 的格子中填写了一些整数。+--*--+--+|10* 1|52|+--****--+|20|30* 1|*******--+| 1| 2| 3|+--+--+--+我们沿着图中的星号线剪开,得到两个部分,每个部分的数字和都是60。本题的要求就是请你编程判定:对给定的m x n 的格子中的整数,是否可以分割为两个部分,使得这两个区域的...

2022-02-27 15:48:34 125

原创 【蓝桥杯】【真题】买不到的数目

题目描述小明开了一家糖果店。他别出心裁:把水果糖包成4颗一包和7颗一包的两种。糖果不能拆包卖。小朋友来买糖的时候,他就用这两种包装来组合。当然有些糖果数目是无法组合出来的,比如要买 10 颗糖。你可以用计算机测试一下,在这种包装情况下,最大不能买到的数量是17。大于17的任何数字都可以用4和7组合出来。本题的要求就是在已知两个包装的数量时,求最大不能组合出的数字。输入两个正整数,表示每种包装中糖的颗数(都不多于1000)输出一个正整数,表示最大不能买到的糖数样...

2022-02-27 11:18:43 49

原创 【蓝桥杯】【动态规划】2^k进制数

题目描述设r是个2^k 进制数,并满足以下条件:(1)r至少是个2位的2^k 进制数。(2)作为2^k 进制数,除最后一位外,r的每一位严格小于它右边相邻的那一位。(3)将r转换为2进制数q后,则q的总位数不超过w。在这里,正整数k(1≤k≤9)和w(k〈w≤30000)是事先给定的。问:满足上述条件的不同的r共有多少个?我们再从另一角度作些解释:设S是长度为w 的01字符串(即字符串S由w个“0”或“1”组成),S对应于上述条件(3)中的q。将S从右起划分为若干个长度为k 的段,每段对.

2022-02-20 17:13:34 82

原创 【蓝桥杯】【动态规划】母牛的故事

题目描述有一头母牛,它每年年初生一头小母牛。每头小母牛从第四个年头开始,每年年初也生一头小母牛。请编程实现在第n年的时候,共有多少头母牛?输入输入数据由多个测试实例组成,每个测试实例占一行,包括一个整数n(0<n<55),n的含义如题目中描述。n=0表示输入数据的结束,不做处理。输出对于每个测试实例,输出在第n年的时候母牛的数量。每个输出占一行。样例输入2450样例输出246分析python单纯使用递归会超..

2022-02-20 16:26:15 187

原创 python各种函数

我知道函数map。它的用法是new_list = map(func, list)但是*map(func, list)是什么意思呢?它被用来这意味着从map()返回的iterable将被解包为函数的参数。也就是说,不是调用函数并将iterable对象作为单个参数传递,而是将iterable的各个元素作为单个参数传递。>>> def foo(a, b, c): print "a:%s b:%s c:%s" % (a, b, c)...>>&gt...

2022-02-18 20:33:56 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除