自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(182)
  • 收藏
  • 关注

原创 ModuleNotFoundError: No module named ‘transformers.models.mmbt‘

此时的 simpletransformers 的版本是。transformers版本的问题,报错的版本是。将transformers调整至。

2024-04-23 11:37:25 233

原创 pip install seqeval 报错

先运行以下代码,再重新安装就可以了。

2024-04-23 11:12:56 125

原创 报错:ERROR: Command errored out with exit status 1: python setup.py egg_info Check the logs for full c

然后再使用 pip install 安装需要的包,就可以成功安装。

2024-04-22 09:34:50 413

原创 运行transformers报错check_min_version(“4.40.0.dev0“)

安装的 transformers 版本不对,这里安装了 4.39.3,实际想要安装 4.40.0.dev0。即可安装4.40.0.dev0版本的transformers。)下载transformers的项目。解决:从 huggingface安装。在huggingface (

2024-04-17 11:01:17 372 1

原创 pytorch梯度累积

pytorch每次forward完都会得到一个用于梯度回传的计算图,pytorch构建的计算图是动态的,其实在每次backward后计算图都会从内存中释放掉,但是梯度不会清空的。同时,因为累计了4个batch,那学习率也应该扩大4倍,让更新的步子跨大点。看网上的帖子有讨论对BN层是否有影响,因为BN的估算阶段(计算batch内均值、方差)是在forward阶段完成的,那真实的batch_size放大4倍效果肯定是比通过梯度累加放大4倍效果好的,毕竟计算真实的大batch_size内的均值、方差肯定更精确。

2024-02-27 16:04:32 827

原创 BPE的使用(代码)

【代码】BPE的使用(代码)

2024-02-27 15:57:37 443

原创 安装miniconda、tensorflow、libcudnn

使用 print(tf.config.list_physical_devices('GPU')) 查看GPU时报错。tensorflow官网,查看版本对应。报以上错误是因为没有安装cudnn。

2024-01-23 16:05:58 625 1

原创 R语言——独立性检验函数、相关性分析函数和相关性检验函数、绘图函数(七)

独立性检验是根据频数信息判断两类因子彼此相关或相互独立的假设检验。所谓独立性就是指变量之间是独立的,没有关系。独立性检验算法:卡方检验、Fisher检验、Cochran-Mantel-Haenszel检验假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。原假设——没有发生备择假设——发生了具体做法:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;

2024-01-03 09:26:02 1242

原创 R语言——R函数、选项参数、数学统计函数(六)

lm()是R语言中经常用到的函数,用来拟合。它是拟合线性模型最基本的函数其中,formula指要拟合的模型形式,data是一个数据框,包含了用于拟合模型的数据。结果对象(本例中是fit)存储在一个列表中,包含了所拟合模型的大量信息。结果会显示:使用函数时要注意函数的返回值类型,比如有些函数返回值是列表,那就不能将其运用到使用向量的环境中。有些函数只能处理矩阵,有些函数既能处理矩阵也能处理数据框,使用函数时,需要知道每个函数的输入数据格式,否则就会出错。

2024-01-03 09:25:24 1202

原创 R语言——reshape2包、tidyr包、dplyr包(五)

使用merge函数【使用 cbind 或 rbind 无法区分哪部分来自 x , 哪部分来自 y。merge(x,y,by)合并函数:by表示根据x和y中的某一列进行合并。如:安装reshape2包:install.packages('reashape2')加载reshape2包:library(reshape2)(使用R中的airquality数据集做演示)

2024-01-02 10:39:47 1450

原创 R语言——数据操作(四)

tapply(x,INDEX,FUN):x是向量或其他,INDEX是一组因子,利用这个因子,可以对第一个参数的数据进行分组。使用 length(rownames()) 和 length(colnames()) 可以查看行数和列数。是指在中心化之后再除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。x是数组、矩阵或数据框;sapply(x,FUN):s代表simplify,x是列表,返回值是向量或者矩阵。lapply(x,FUN):l 代表list,x是列表,返回值是列表。

2024-01-02 09:36:12 1347

原创 pytorch 分布式训练

神经网络训练加速的最简单方法是使用GPU,对弈神经网络中常规操作(矩阵乘法和加法)GPU运算速度要倍超于CPU。随着模型或数据集越来越大,一个GPU很快就会变得不足。例如,BERT和GPT-2等大型语言模型是在数百个GPU上训练的。对于多GPU训练,需要一种在不同GPU之间对模型和数据进行切分和调度的方法。PyTorch是非常流行的深度学习框架,它在主流框架中对于灵活性和易用性的平衡最好。和。DataParallel更易于使用(只需简单包装单GPU模型)。

2023-12-26 13:57:05 2077

原创 pip freeze 导出的requirements.txt文件含有 @file

使用 pip freeze > requirements.txt 导出的文件中含有 @file://解决:pip list --format=freeze > requirements.txt。原因是这种方法生成的文件只能用于本地环境,无法供他们使用。使用这个文件在其他环境下安装就会出现 找不到路径的错误。使用以下方式生成文件。

2023-12-26 10:13:02 717

原创 R语言——文件读写(三)

追加写入:write.table(b, file = 'E:\\R\\R_file\\new_file.txt',sep = ',', row.names = F,col.names = F, quote = F,append = T)write.table(b, file = 'E:\\R\\R_file\\new_file.csv',sep = ',', row.names = F):定义row.names为FALSE, 不添加行号。header:作用是在读取数据时,是否将第一行数据作为变量的名称。

2023-12-20 16:42:13 2722

原创 R语言——基本操作(二)

创建矩阵,nrow 和 ncol 可以省略,但其值必须满足分配条件,否则会报错只写一个值则自动分配,默认按列分配byrow属性可以控制矩阵按行排列定义矩阵行和列的名字dim(x):输出x的维度dim(x)

2023-12-20 16:41:44 1321 1

原创 R语言——基本操作(一)

查看所有历史记录,比直接使用 ↑ 查找更方便中断操作,可中断未完成的操作(未完成回车后是 + ),也可以清空命令。清空屏幕显示R studio中所有的快捷操作。

2023-12-18 09:24:45 6066 1

原创 多进程运行含有任意参数的函数、为什么multiprosessing会进行多次初始化

使用偏函数:偏函数有点像数学中的偏导数,可以让我们只关注其中的某一个变量而不考虑其他变量的影响。如以下代码中,我们要将set_seq、tokenizer和model作为变量传入“Seq_to_vec”函数中。particial函数中,“Seq_to_vec”是一个函数,tokenizer和model是不变的量,“map_async”中particial_func为偏函数,set_seq为可迭代对象。

2023-12-18 09:23:31 1058

原创 AttributeError: Can‘t get attribute ‘WordVocab‘ on <module ‘__main__‘ from ‘genetic_algorithm.py‘>

原因:就像我们在保存模型的时候有两种方式,一种是保存整个模型,虽然很大但是使用方便;这里也是一样的,vocab.pkl在加载时也需要找到其依赖的类,而在报错信息中也说明了,需要导入的类是WordVocab。背景:在看代码的时候想看看一个pkl文件的文件结构和里面的数据,于是就用pickle.load打开,但是出现了AttributeError: Can't get attribute 'WordVocab' on

2023-12-15 09:43:03 492

原创 scrapy post请求——百度翻译(十四)

scrapy处理 post 请求爬取百度翻译界面。

2023-12-14 09:13:52 549

原创 scrapy ——链接提取器之爬取读书网数据(十三)

1.继承自 scrapy.spider2.CrawlSpider可以定义规则。在解析 html 的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发送请求。所以,如果有需要跟进链接的请求,意思就是爬取了网页之后,需要提取链接在此爬取,使用CrawlSpider是非常合适的。3.提取链接链接提取器,在这里就可以写规则提取指定链接allow=(), # (常用)正则表达式 提取符合正则的链接deny=(), # 正则表达式,不提取符合条件的链接。

2023-12-14 09:13:07 1050

原创 爬虫 scrapy ——获取电影名及图片(十二)

爬取电影天堂的电影名、图片,图片地址位于电影名的下一层链接中。获取标题,点击链接再获取这一页的图片。

2023-12-13 09:16:27 370

原创 爬虫 scrapy ——scrapy shell调试及下载当当网数据(十一)

什么是scrapy shell?scrapy终端,是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码,不过您可以将其作为正常的python终端,在上面测任何的python代码。该终端是用来测试Xpath或css表达式,查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时,一旦熟悉了scrapy终端后,您会发现其在开发和调试spider时发挥的最大作用。定义要获取的图片、书名和价格# 通俗地讲就是你下载的数据都有什么# 爬取图片。

2023-12-13 09:16:22 1083 2

原创 爬虫 scrapy —基本使用及工作原理(十)

scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。爬取更快,程序更加健壮。一系列的程序中。爬取更快,程序更加健壮。

2023-12-12 09:46:27 1195

原创 爬虫 requests——获取网络请求(九)

抓登录界面的接口:登录界面,输入错的信息点击登录。找到以“login”开头的名称,可以看到登录界面的参数。r.encoding:访问或定制编码方式。r.status code:响应的状态码。类型:models.Response。r.content:响应的字节类型。在源代码中找到这两个变量,这两个变量被称为隐藏域。r.headers:响应的头信息。打码平台可以自动识别验证码,如:超级鹰打码平台。r.url:获取请求的url。r.text:获取网站源码。抓取登录接口的,发送post请求。# 1. 隐藏域问题。

2023-12-12 09:43:38 596

原创 爬虫解析——Xpath的安装及使用(五)

进入chrome应用商店搜索 Xpath helpler选择这个安装怎么看扩展是否安装成功呢?随便打开一个页面,然后 按快捷键 Ctrl+Shift+X出现这个黑色的框框就算安装成功了。

2023-12-11 09:11:05 2832

原创 变相增大BatchSize——梯度累积

pytorch每次forward完都会得到一个用于梯度回传的计算图,pytorch构建的计算图是动态的,其实在每次backward后计算图都会从内存中释放掉,但是梯度不会清空的。看网上的帖子有讨论对BN层是否有影响,因为BN的估算阶段(计算batch内均值、方差)是在forward阶段完成的,那真实的batch_size放大4倍效果肯定是比通过梯度累加放大4倍效果好的,毕竟计算真实的大batch_size内的均值、方差肯定更精确。同时,因为累计了4个batch,那学习率也应该扩大4倍,让更新的步子跨大点。

2023-12-11 09:07:43 451

原创 爬虫解析-BeautifulSoup-bs4(七)

beautifulsoup:和lxml一样,是一个html的解析器,主要功能也是解析和提取数据。优缺点:缺点:没有lxml效率高优点:接口更加人性化,使用方便。

2023-12-08 10:02:41 1337

原创 爬虫 selenium语法 (八)

模拟浏览器功能,自动执行网页中的js代码,实现动态加载。path = 谷歌浏览器驱动文件路径url = 要访问的网址:自动化要做的就是模拟鼠标和键盘来操作这些元素,如点击、输入等等。操作这些元素前首先要找到它们,webdriver提供很多定位元素的方法。(1)find_element(By.ID, 'id 名')(2)find_element(By.NAME, 'name 名')(3)find_elements(By.XPATH, 'Xpath语法')

2023-12-08 09:56:51 1977

原创 爬虫解析-jsonpath (六)

jsonpath只能解析本地文件打开检查中的网络,当鼠标悬浮在“深圳”这个位置上时,就会出现一个下拉列表,我门点击左侧新出现的名称后,从预览中可以看到与上面对应的所有的城市名称,我们就可以用jsonpath把这些城市都爬下来。

2023-12-07 09:23:55 650

原创 urllib 异常、cookie、handler及代理(四)

4.通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更加健壮,可以通过try-except进行捕捉异常,异常有两类URLError和HTTPError。3.http错误:http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页是哪里出了问题。2.导入的包urllib.error.HTTPError urllib.error.URLError。1.HTTPError类是URLError类的子类。

2023-12-07 09:21:29 1276

原创 urllib爬虫 应用实例(三)

设置url,检查 --> 网络 --> 全部 --> top_list --> 标头 --> 请求URL。目标:获取豆瓣电影第一页的数据,并保存为json文件。

2023-12-06 09:26:10 654

原创 urllib 的 get 请求和 post 请求(二)

目标:下载数据知识点:urllib.request.urlretrieve()下载使用urllib下载网页、图片和视频下载图片:二、目标:爬取整个网页知识点:学习一种反爬方法,并定制请求对象。

2023-12-06 09:21:58 1367

原创 爬虫概念、基本使用及一个类型和六个方法(一)

如果我们把互联网比作一个巨大的网,那一台计算机上的数据就是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据。解释1:通过一个程序进行爬取网页,获取有用信息解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息。

2023-12-04 17:48:32 2731 1

原创 安装R和Rstudio

点击CRAN选择一个镜像我用的winows,所以我选择 download R for windows进去之后选择 base点击下载找到刚才下载的可执行文件,安装选择语言下一步选择一个位置安装下一步下一步选择R的快捷方式的位置下一步安装完成。

2023-11-20 10:13:16 417

原创 DataFrame的基本用法

定义一个空的DataFramedf = pd.DataFrame(data=None,columns=range(1,5),index=[0,1]) # 从列表定义,定义列名和行名dfdf = pd.DataFrame(columns={"a":"","b":""},index=[0,1,2]) #从字典定义df。

2023-11-06 15:26:36 2534

原创 chrome driver下载、selenium安装及报错解决

这里说一下在新版本的selenium中修改了一下对象的调用方式,我安装的selenium版本是“4.11.2”,在“4.3.0”版本之后,一些代码就发生了改变。这里,“by”相关的方法移到了“common.by”中,我们“ctrl”然后点击“by”进入到“by.py”文件中,可以看到这里可调用的对象。然后选择我们想要的驱动“chromedriver”,我的电脑是64位,所以我选择“win64”,然后将后面的链接复制到浏览器中就可以下载了。打开Chrome浏览器,点击右上角的三个点,再点击设置。

2023-11-06 11:33:18 20770 3

原创 读取不同格式文件中的内容(xlsx,csv,txt,npz,yaml)

1.读取.xlsx中的内容。5.读取.yaml中的内容。3.读取.txt中的内容。4.读取.npz中的内容。2.读取csv中的内容。

2023-10-23 15:57:12 233

原创 wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[your_api_key])

复制这个api_key到命令行,然后选择初始化已经创建过的还是创建一个新的。登录wandb,会显示下面这样的api_key。命令行键入:wandb init。复制下面的网址到浏览器。然后重新运行就不报错了。

2023-10-23 11:06:57 1549

原创 argparse的用法

argparse 模块是 Python 内置的用于命令项选项与参数解析的模块,argparse 模块可以让人轻松编写用户友好的命令行接口,能够帮助程序员为模型定义参数。打印如下信息,可以看到,未给‘batchsize’分配内容时,argparse会自动调用‘batchsize’的默认值‘default=8’提示,不需要键入‘data_path’,只需要键入‘data_path’的内容,argparse会自动将该内容分配给‘data_path’。# 只运行python文件,不输入参数时。

2023-09-21 09:50:26 459

原创 使用hook提取模型的特征图

若打印结果是下面这样的,需要找到model的表示网络层的属性,如上面print(dir(model)显示的,需print(dir(model.model)才能打印网络层,这主要根据网络包装情况判断。这两个输出要区别好,name是后面需要判断是否是目标网路层,print的是模型某一块网络结构,写这两部分是为了展示这两个索引方式的不同。以上面的网络层输出为例,括号中就是网络层的名字,然后再根据缩进来判断网络层的层级关系。运行下面代码可以查看model中所有的网络层名字,然后选择自己需要的名字就好了。

2023-09-20 14:36:52 120

遥感影像批量裁剪、数据切分、数据增强、位深度转换代码

代码包括遥感影像的单图裁剪、批量裁剪;训练集、验证集和测试集的切分;目标检测和语义分割影像的数据增强;32/16位深度转8位深度。 1、主要用于深度学习领域的遥感影像数据处理,主要针对输入数据为tif,转为jpg、png格式,并将数据裁剪为网络可以训练的大小,可以手动调节裁剪步长(即有重叠或无重叠),可以对单张图像进行裁剪,也可对文件夹内的所有图片进行裁剪。 2、可以根据想要划分的训练集、验证集和测试集的比例进行划分,如9:1:1. 3、本代码还提供了用于目标检测和语义分割任务的数据的增强,主要包括仿射变换、平移翻转等。 4、此外,代码还针对遥感影像位深度32或者16的转为8位的操作。 本代码可修改性强,为方便理解,每部分代码都进行的标注。本文件共包含10个python文件。

2022-09-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除