JY HUA-CSDN博客

这份baseline代码是对train数据集进行4:1划分train、dev，dev f1-macro为。整理代码中，顺手给大家整理了一份baseline代码可以作为参考。1. 加载模型 & tokenizer。直接提交submit.csv文件，得分。4. 划分 train dev 数据集。，提交test 对应得分为。3. 构建输入输出文本。

2022-09-23 19:31:59 964 2

原创 pdf文件mac打印时编辑删除某些字

需求是如下图pdf，想在打印时删除红色字部分。下载了福昕pdf编辑器，付费的，不付费会带水印。

2022-07-21 17:08:38 868

原创未能打开文稿“xxx.txt”。文本编码Unicode (UTF-8)不适用。txt文件GB2312编码转换utf-8编码格式方法

本文提供一种使用python将txt文件GB2312编码转换utf-8编码格式的方法。复制粘贴完整代码直接跳到看第三部分： 3. 解码使用GBK输出：可以看到是GB2312的编码格式。输出：可以看到设定gb2312解码报错了，查相关资料发现可能是 “处理的字符的确是gb2312，但是其中夹杂的部分特殊字符，是gb2312编码中所没有的。”GB2312，GBK，GB18030，是兼容的，包含的字符个数：GB2312 < GBK < GB18030生成的xxx_out.t

2022-06-22 16:01:01 2156

原创查看NLP预训练模型参数量

from transformers import BertModel, BertConfigconfig = BertConfig.from_json_file('bert-base/config.json')bert_model = BertModel(config, add_pooling_layer=True)pytorch_total_params = sum(p.numel() for p in bert_model.parameters() if p.requires_grad)pr.

2021-10-28 16:00:10 857

原创 NLP预训练模型分层学习率衰减

# ref: <How to Fine-Tune BERT for Text Classification? > # 分层学习率衰减 # 基础学习率 lr_base = 5e-6 lr_classifier = 5e-5 # 衰减系数 xi = 0.95 lr = dict() lr[23] = lr_base for k in range(23,0,-1): lr[k-1] = 0.95*lr[k] .

2021-08-24 15:39:50 830

原创如何选择合适的learning rate？

1. 设置一个较大的learning_ratelearning_rate = 1e-32. 设置warmup

2021-06-03 17:19:02 3823 1

原创 T5模型在训练过程中实时计算验证集上准确度，自定义compute_metrics

T5模型不同于bert类模型，它是一个seq2seq模型，它在训练过程中预测结果实时返回的是字典长度的置信度，想要在训练过程中实时监测在验证集上的准确度，可以自己添加自定义compute_metrics函数。以下为采用transformers框架训练添加自定义compute_metrics函数的代码：def compute_metrics(pred): ## 1.处理 pred.predictions # 每个样本的预测结果为vocab大小 predict_res = to

2021-04-15 14:43:46 1840 2

原创 dataframe多分类问题中多个模型的预测结果投票，一行代码

比如三个模型进行投票：df# 取票数最高的结果from collections import Counterdf['label'] = df.apply(lambda x: Counter([x.label1,x.label2,x.label3]).most_common()[0][0],axis=1)df红框部分即为投票结果。

2021-03-27 15:50:05 731

原创中国计算机学会推荐国际学术会议（人工智能）

为查看方便，存一份。Reference：https://www.ccf.org.cn/Academic_Evaluation/By_category/

2021-03-17 16:10:27 404

原创 python3 abc module 抽象类使用demo

类似于接口的概念，便于统一API。定义一个base class：from abc import ABC, abstractmethodclass Person(ABC): @abstractmethod # 定义抽象方法，无需实现功能 def get_name(self) -> str: '''子类必须定义本方法''' pass @abstractmethod # 定义抽象方法，无需实现功能 def get_id(s...

2021-01-21 19:34:45 217 1

原创显卡RTX 3090运行pytorch报错CUDA error: no kernel image is available for execution on the device

RuntimeError: CUDA error: no kernel image is available for execution on the device卸载当前版本的pytorch, 重新按照以下安装pip uninstall torchpip install torch==1.7.0+cu110 torchvision==0.8.1+cu110 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stable..

2021-01-12 02:07:58 9912 5

原创 703. 数据流中的第 K 大元素 python3 堆解法

703. 数据流中的第 K 大元素难度简单179收藏分享切换为英文接收动态反馈设计一个找到数据流中第k大元素的类（class）。注意是排序后的第k大元素，不是第k个不同的元素。请实现KthLargest类：KthLargest(int k, int[] nums)使用整数k和整数流nums初始化对象。 int add(int val)返回当前数据流中第k大的元素。示例：输入：["KthLargest", "add", "add", "add"...

2021-01-06 23:24:06 172

原创剑指 Offer 40. 最小的k个数 - python3 堆解法

剑指 Offer 40. 最小的k个数输入整数数组arr，找出其中最小的k个数。例如，输入4、5、1、6、2、7、3、8这8个数字，则最小的4个数字是1、2、3、4。示例 1：输入：arr = [3,2,1], k = 2输出：[1,2] 或者 [2,1]示例 2：输入：arr = [0,1,2,1], k = 1输出：[0]限制：0 <= k <= arr.length <= 10000 0 <= arr[i]<=...

2021-01-05 23:53:59 323 2

原创使用transformers的T5模型获取输入文本的sentence embedding句向量

from transformers import T5Tokenizer, T5Modelimport torchMODEL_NAME = 't5-small'print(f'Loading {MODEL_NAME} Model...')# 加载模型和tokenizertokenizer = T5Tokenizer.from_pretrained('t5-small')model = T5Model.from_pretrained(MODEL_NAME)# 输入文本并进行t...

2020-12-24 15:02:14 4511

原创登陆服务器时发现nvidia driver显卡驱动不见了

1. 查看shutdown信息last -x shutdownlast -xlast -x | grep reboot发现是因为ubuntu kernal自动升级导致的。2. 关闭kernal自动升级（1）查看当前ubuntu kernal版本uname -r# 5.4.0-58-generic（2）关闭自动升级sudo apt-mark hold 5.4.0-58-genericDone....

2020-12-16 15:01:07 1460 2

原创 tensorflow动态申请显存

import tensorflow as tfgpus = tf.config.experimental.list_physical_devices('GPU')if gpus: try: # Currently, memory growth needs to be the same across GPUs for gpu in gpus: tf.config.experimental.set_memory_growth(gpu,...

2020-12-10 17:09:23 592

原创 ray报错整理 [raylet_client.cc:54] Could not connect to socket /tmp/ray/session /sockets/raylet

ray使用中常见报错整理及解决报错一：ray start 时报错:Could not terminate `"/usr/bin/redis-server 127.0.0.1:6379" "" "" "" "" "" "" ""` due to psutil.AccessDenied (pid=1866, name='redis-server')Stopped only 0 out of 1 Ray processes. Set `-v` to see more details.T.

2020-11-13 14:40:30 3762

原创【bugfix】遇到一个conda 报错CondaValueError: prefix already exists (conda:4.8.1)

执行：conda create -n env_name_xxx python=3.7.7 -y报错：CondaValueError: prefix already exists用 conda info --envs 查看却没有env_name_xxx这个环境解决方法：直接删除目录：rm -r /home/xxx/miniconda3/envs/env_name_xxx就好了。以下为debug尝试:尝试force：conda create --force -n env_nam

2020-10-26 13:39:10 15872 5

原创 AutoML综述

《taking human out of learning applications: a survey on automated machine learning》AutoML出现的原因机器学习大量人工干预：特征提取、模型选择、参数调节autoML试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化的学习autoML问题定义机器学习角度： autoML可以看做是在给定数据和任务上学习和泛化能力非常强的系统。他必须非常容易使用自动化角度： autoML是设计一系列高级的控制系统去操作机

2020-09-27 14:51:03 360

原创手把手搭建ubuntu多台物理机hadoop hdfs流程

1.基础安装sudo apt updatesudo apt install vim2.校准linux系统时间sudo apt install ntpdate htopsudo ntpdate cn.pool.ntp.org3.创建hadoop用户：sudo adduser hadoop# spark password # 为hadoop用户添加sudo权限sudo vi /etc/sudoers# 把root那行复制后修改成hadoop，hadoop就有了root权限，需要su

2020-08-21 20:00:02 443

原创树模型LightGBM CatBoost XGBoost的gpu单机多卡支持

LightGBM读文档没看到明确说多卡的设置好像要用到clinfo？哪位用过可否告诉我一下==CatBoost原生支持多gpu，直接设置参数：params['task_type'] = 'GPU'params['devices'] = '1,2,3' XGBoost可支持多gpu，需使用dask，可参考：https://github.com/dmlc/xgboost/blob/master/demo/dask/gpu_training.py...

2020-08-19 19:23:10 1456

原创 Leetcode 111. 二叉树的最小深度递归实现及BFS算法的实现 python版

# Definition for a binary tree node.# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Nonefrom collections import dequeclass Solution: def minDepth(self, root: TreeNode) -> i.

2020-08-18 23:31:27 336

原创 Mac使用小技巧汇总

[ NOTE 1 ] :MacBook Pro 关闭独立显卡/开启集成显卡sudo pmset -a GPUSwitch 0 #强制使用集成显卡sudo pmset -a GPUSwitch 1#强制使用独立显卡sudo pmset -a GPUSwitch 2 # 自动切换p.s. 使用集成显卡外接显示器会没有反映，再输入自动选择命令即可。[ NOTE 2 ] : terminal高亮、ssh高亮本地高亮：编辑 ~/.bash_profile文件，加入以下代...

2020-08-14 15:19:51 723

原创 mac及ubuntu实用工具软件推荐

录屏工具obs【支持mac ubuntuwindows】ubuntu安装方式：# 先安装ffmpeg:sudo apt install ffmpeg# 再安装OBS Studio:sudo add-apt-repository ppa:obsproject/obs-studiosudo apt install obs-studio视频格式转换工具ffmpeg【支持mac ubuntu】安装方式：直接命令行安装sudo apt install f...

2020-08-12 14:00:02 326

原创 Leetcode 46. 全排列 51. N皇后思路超清晰的回溯算法题python实现

class Solution: def permute(self, nums: List[int]) -> List[List[int]]: # 路径：记录在数组track中 # 选择路径： nums中不存在于track的那些元素 # 结束条件： nums中的元素全都在track中出现 def backtrack(nums,track): # 触发条件结束 if len(track.

2020-08-07 23:56:01 322

原创 cuda环境变量设置

cuda环境变量设置export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexport PATH=/usr/local/cuda/bin:$PATH

2020-08-07 18:50:17 14428

原创 Reinforecement Learning 论文及github仓库汇总

环境：参考github：https://github.com/openai/gymv0和v4的env差别在于有无0.25的repeat_action_probability，前者有，后者没有。有无ram的差别在于input，是2d image(pixel) 还是1d array。更详细的解释可参考：https://stackoverflow.com/questions/45207569/how-to-interpret-the-observations-of-ram-environments-i

2020-07-31 17:58:44 515

原创强化学习 - OpenAI Gym初体验

STEP 1:miniconda新环境 python 3.7.7STEP 2:https://github.com/openai/gym安装openai gympip install gym报了两个包版本不兼容的error：ERROR: spyder 4.1.4 requires pyqtwebengine<5.13; python_version >= "3", which is not installed.ERROR: spyder 4.1.4 has.

2020-07-23 18:48:38 494

原创 KFold StratifiedKFold GroupKFold的应用场景及示例代码

1. kfold普通的k折交叉验证from sklearn.model_selection import KFold2. stratifiedkfold平衡label的k折交叉验证。在类别label不平衡时使用，如0、1分类时，0的样本量和1的样本量差异悬殊。from sklearn.model_selection import StratifiedKFoldskf = StratifiedKFold(n_splits=5, shuffle=True, random_...

2020-07-13 15:31:51 1341

原创 SpaceX crew demo-2, 关于第一宇宙速度

看了spacex的crew demo-2直播，最终速度大概如下 27012km/h，海拔198km。而第一宇宙速度7.9km/s，换算得到28440km/h。实际速度低于该值。按照万有引力定律：G是万有引力常数：M为地球质量：r为地球直径：altitude为海拔高度：1为海拔198km时，通过计算得到的第一宇宙速度。但crew demo-2实际上并未达到该值。2为crew demo-2实际数值推算得到的地球半径，明显大于理论的地球半径值（因为地球有点椭？）。.

2020-05-31 04:51:14 1244

原创安装GPU版本的LightGBM的的正确姿势

【安装GPU版本的LightGBM的的正确姿势】1.install something：sudo apt-get install libboost-all-dev sudo apt install ocl-icd-opencl-dev2.Clone LightGBM and build with CUDA enabledgit clone --recursive https://github.com/Microsoft/LightGBM && cd LightGB

2020-05-26 19:30:15 7805 1

空空如也

空空如也