自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 收藏
  • 关注

原创 常用端口号说明(持续更新)

port 8888 jupyter notebook 6006 tensorboard 8080 spark master

2020-07-21 16:40:38 966

原创 下载huggingface dataset数据量太大失败,使用snapshot_download

【代码】下载huggingface dataset失败,使用snapshot_download。

2024-06-12 14:20:50 176

原创 输入为一个list,输出为一个dict,其中包含这个list中对应的每个element以及它出现的次数,并且从出现次数最多的开始降序排列

【代码】输入为一个list,输出为一个dict,其中包含这个list中对应的每个element以及它出现的次数,并且从出现次数最多的开始降序排列。

2024-02-01 20:20:40 284

原创 mac上解压缩rar文件

【代码】mac上解压缩rar文件。

2024-01-24 14:57:47 336

原创 字符串处理: 对文本进行半角全角转换

【代码】字符串处理: 对文本进行半角全角转换。

2023-01-06 17:55:22 355 1

原创 CCF 中国计算机学会推荐国际学术会议 (人工智能) 2022

为查看方便,存一份。

2022-12-09 14:55:22 2090

原创 Mengzi-BERT-base单模型未搜超参直接提交线上55.61 【2022 CCF BDCI 小样本数据分类任务 】

这份baseline代码是对train数据集进行4:1划分train、dev,dev f1-macro为。整理代码中,顺手给大家整理了一份baseline代码可以作为参考。1. 加载 模型 & tokenizer。直接提交submit.csv文件,得分。4. 划分 train dev 数据集。,提交test 对应得分为。3. 构建输入输出文本。

2022-09-23 19:31:59 886 2

原创 pdf文件mac打印时编辑删除某些字

需求是如下图pdf,想在打印时删除红色字部分。下载了福昕pdf编辑器,付费的,不付费会带水印。

2022-07-21 17:08:38 665

原创 未能打开文稿“xxx.txt”。文本编码Unicode (UTF-8)不适用。txt文件GB2312编码转换utf-8编码格式方法

本文提供一种使用python将txt文件GB2312编码转换utf-8编码格式的方法。复制粘贴完整代码直接跳到看第三部分: 3. 解码使用GBK输出:可以看到是GB2312的编码格式。输出:可以看到设定gb2312解码报错了,查 相关资料 发现可能是 “处理的字符的确是gb2312,但是其中夹杂的部分特殊字符,是gb2312编码中所没有的。”GB2312,GBK,GB18030,是兼容的,包含的字符个数:GB2312 < GBK < GB18030生成的xxx_out.t

2022-06-22 16:01:01 1738

原创 查看NLP预训练模型参数量

from transformers import BertModel, BertConfigconfig = BertConfig.from_json_file('bert-base/config.json')bert_model = BertModel(config, add_pooling_layer=True)pytorch_total_params = sum(p.numel() for p in bert_model.parameters() if p.requires_grad)pr.

2021-10-28 16:00:10 789

原创 NLP预训练模型分层学习率衰减

# ref: <How to Fine-Tune BERT for Text Classification? > # 分层学习率衰减 # 基础学习率 lr_base = 5e-6 lr_classifier = 5e-5 # 衰减系数 xi = 0.95 lr = dict() lr[23] = lr_base for k in range(23,0,-1): lr[k-1] = 0.95*lr[k] .

2021-08-24 15:39:50 719

原创 如何选择合适的learning rate?

1. 设置一个较大的learning_ratelearning_rate = 1e-32. 设置warmup

2021-06-03 17:19:02 3550 1

原创 T5模型在训练过程中实时计算验证集上准确度,自定义compute_metrics

T5模型不同于bert类模型,它是一个seq2seq模型,它在训练过程中预测结果实时返回的是字典长度的置信度,想要在训练过程中实时监测在验证集上的准确度,可以自己添加自定义compute_metrics函数。以下为采用transformers框架训练添加自定义compute_metrics函数的代码:def compute_metrics(pred): ## 1.处理 pred.predictions # 每个样本的预测结果为vocab大小 predict_res = to

2021-04-15 14:43:46 1616 2

原创 dataframe多分类问题中多个模型的预测结果投票,一行代码

比如三个模型进行投票:df# 取票数最高的结果from collections import Counterdf['label'] = df.apply(lambda x: Counter([x.label1,x.label2,x.label3]).most_common()[0][0],axis=1)df红框部分即为投票结果。

2021-03-27 15:50:05 648

原创 中国计算机学会推荐国际学术会议 (人工智能)

为查看方便,存一份。Reference:https://www.ccf.org.cn/Academic_Evaluation/By_category/

2021-03-17 16:10:27 334

原创 python3 abc module 抽象类 使用demo

类似于接口的概念,便于统一API。定义一个base class:from abc import ABC, abstractmethodclass Person(ABC): @abstractmethod # 定义抽象方法,无需实现功能 def get_name(self) -> str: '''子类必须定义本方法''' pass @abstractmethod # 定义抽象方法,无需实现功能 def get_id(s...

2021-01-21 19:34:45 177 1

原创 显卡RTX 3090运行pytorch报错CUDA error: no kernel image is available for execution on the device

RuntimeError: CUDA error: no kernel image is available for execution on the device卸载当前版本的pytorch, 重新按照以下安装pip uninstall torchpip install torch==1.7.0+cu110 torchvision==0.8.1+cu110 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stable..

2021-01-12 02:07:58 9756 5

原创 703. 数据流中的第 K 大元素 python3 堆解法

703. 数据流中的第 K 大元素难度简单179收藏分享切换为英文接收动态反馈设计一个找到数据流中第k大元素的类(class)。注意是排序后的第k大元素,不是第k个不同的元素。请实现KthLargest类:KthLargest(int k, int[] nums)使用整数k和整数流nums初始化对象。 int add(int val)返回当前数据流中第k大的元素。示例:输入:["KthLargest", "add", "add", "add"...

2021-01-06 23:24:06 142

原创 剑指 Offer 40. 最小的k个数 - python3 堆解法

剑指 Offer 40. 最小的k个数输入整数数组arr,找出其中最小的k个数。例如,输入4、5、1、6、2、7、3、8这8个数字,则最小的4个数字是1、2、3、4。示例 1:输入:arr = [3,2,1], k = 2输出:[1,2] 或者 [2,1]示例 2:输入:arr = [0,1,2,1], k = 1输出:[0]限制:0 <= k <= arr.length <= 10000 0 <= arr[i]<=...

2021-01-05 23:53:59 265 2

原创 使用transformers的T5模型获取输入文本的sentence embedding句向量

from transformers import T5Tokenizer, T5Modelimport torchMODEL_NAME = 't5-small'print(f'Loading {MODEL_NAME} Model...')# 加载模型和tokenizertokenizer = T5Tokenizer.from_pretrained('t5-small')model = T5Model.from_pretrained(MODEL_NAME)# 输入文本并进行t...

2020-12-24 15:02:14 4001

原创 登陆服务器时发现nvidia driver显卡驱动不见了

1. 查看shutdown信息last -x shutdownlast -xlast -x | grep reboot发现是因为ubuntu kernal自动升级导致的。2. 关闭kernal自动升级(1) 查看 当前ubuntu kernal版本uname -r# 5.4.0-58-generic(2)关闭自动升级sudo apt-mark hold 5.4.0-58-genericDone....

2020-12-16 15:01:07 1326 2

原创 tensorflow动态申请显存

import tensorflow as tfgpus = tf.config.experimental.list_physical_devices('GPU')if gpus: try: # Currently, memory growth needs to be the same across GPUs for gpu in gpus: tf.config.experimental.set_memory_growth(gpu,...

2020-12-10 17:09:23 534

原创 ray报错整理 [raylet_client.cc:54] Could not connect to socket /tmp/ray/session /sockets/raylet

ray使用中常见报错整理及解决报错一:ray start 时报错:Could not terminate `"/usr/bin/redis-server 127.0.0.1:6379" "" "" "" "" "" "" ""` due to psutil.AccessDenied (pid=1866, name='redis-server')Stopped only 0 out of 1 Ray processes. Set `-v` to see more details.T.

2020-11-13 14:40:30 2293

原创 【bugfix】遇到一个conda 报错CondaValueError: prefix already exists (conda:4.8.1)

执行:conda create -n env_name_xxx python=3.7.7 -y报错:CondaValueError: prefix already exists用 conda info --envs 查看却没有env_name_xxx这个环境解决方法:直接删除目录:rm -r /home/xxx/miniconda3/envs/env_name_xxx就好了。以下为debug尝试:尝试force:conda create --force -n env_nam

2020-10-26 13:39:10 15191 5

原创 AutoML综述

《taking human out of learning applications: a survey on automated machine learning》AutoML出现的原因机器学习大量人工干预: 特征提取、模型选择、参数调节autoML试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化的学习autoML问题定义机器学习角度: autoML可以看做是在给定数据和任务上学习和泛化能力非常强的系统。他必须非常容易使用自动化角度: autoML是设计一系列高级的控制系统去操作机

2020-09-27 14:51:03 294

原创 手把手搭建ubuntu多台物理机hadoop hdfs流程

1.基础安装sudo apt updatesudo apt install vim2.校准linux系统时间sudo apt install ntpdate htopsudo ntpdate cn.pool.ntp.org3.创建hadoop用户:sudo adduser hadoop# spark password # 为hadoop用户添加sudo权限sudo vi /etc/sudoers# 把root那行复制后修改成hadoop,hadoop就有了root权限,需要su

2020-08-21 20:00:02 395

原创 树模型LightGBM CatBoost XGBoost的gpu单机多卡支持

LightGBM读文档没看到明确说多卡的设置好像要用到clinfo?哪位用过可否告诉我一下==CatBoost原生支持多gpu,直接设置参数:params['task_type'] = 'GPU'params['devices'] = '1,2,3' XGBoost可支持多gpu,需使用dask,可参考:https://github.com/dmlc/xgboost/blob/master/demo/dask/gpu_training.py...

2020-08-19 19:23:10 1193

原创 Leetcode 111. 二叉树的最小深度 递归实现及BFS算法的实现 python版

# Definition for a binary tree node.# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Nonefrom collections import dequeclass Solution: def minDepth(self, root: TreeNode) -> i.

2020-08-18 23:31:27 285

原创 Mac使用小技巧汇总

[ NOTE 1 ] :MacBook Pro 关闭独立显卡/开启集成显卡sudo pmset -a GPUSwitch 0 #强制使用集成显卡sudo pmset -a GPUSwitch 1#强制使用独立显卡sudo pmset -a GPUSwitch 2 # 自动切换p.s. 使用集成显卡外接显示器会没有反映,再输入自动选择命令即可。[ NOTE 2 ] : terminal高亮、ssh高亮本地高亮:编辑 ~/.bash_profile文件,加入以下代...

2020-08-14 15:19:51 574

原创 mac及ubuntu实用工具软件推荐

录屏工具obs【支持mac ubuntuwindows】ubuntu安装方式:# 先安装ffmpeg:sudo apt install ffmpeg# 再安装OBS Studio:sudo add-apt-repository ppa:obsproject/obs-studiosudo apt install obs-studio视频格式转换工具ffmpeg【支持mac ubuntu】安装方式:直接命令行安装sudo apt install f...

2020-08-12 14:00:02 275

原创 Leetcode 46. 全排列 51. N皇后 思路超清晰的回溯算法题python实现

class Solution: def permute(self, nums: List[int]) -> List[List[int]]: # 路径:记录在数组track中 # 选择路径: nums中不存在于track的那些元素 # 结束条件: nums中的元素全都在track中出现 def backtrack(nums,track): # 触发条件结束 if len(track.

2020-08-07 23:56:01 273

原创 cuda环境变量设置

cuda环境变量设置export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexport PATH=/usr/local/cuda/bin:$PATH

2020-08-07 18:50:17 13361

原创 Reinforecement Learning 论文及github仓库汇总

环境:参考github:https://github.com/openai/gymv0和v4的env差别在于有无0.25的repeat_action_probability,前者有,后者没有。有无ram的差别在于input,是2d image(pixel) 还是1d array。更详细的解释可参考:https://stackoverflow.com/questions/45207569/how-to-interpret-the-observations-of-ram-environments-i

2020-07-31 17:58:44 445

原创 强化学习 - OpenAI Gym初体验

STEP 1:miniconda新环境 python 3.7.7STEP 2:https://github.com/openai/gym安装openai gympip install gym报了两个包版本不兼容的error:ERROR: spyder 4.1.4 requires pyqtwebengine<5.13; python_version >= "3", which is not installed.ERROR: spyder 4.1.4 has.

2020-07-23 18:48:38 426

原创 KFold StratifiedKFold GroupKFold的应用场景及示例代码

1. kfold普通的k折交叉验证from sklearn.model_selection import KFold2. stratifiedkfold平衡label的k折交叉验证。在类别label不平衡时使用,如0、1分类时,0的样本量和1的样本量差异悬殊。from sklearn.model_selection import StratifiedKFoldskf = StratifiedKFold(n_splits=5, shuffle=True, random_...

2020-07-13 15:31:51 1202

原创 SpaceX crew demo-2, 关于第一宇宙速度

看了spacex的crew demo-2直播,最终速度大概如下 27012km/h,海拔198km。而第一宇宙速度7.9km/s,换算得到28440km/h。实际速度低于该值。按照万有引力定律:G是万有引力常数:M为地球质量:r为地球直径:altitude为海拔高度:1为海拔198km时,通过计算得到的第一宇宙速度。但crew demo-2实际上并未达到该值。2为crew demo-2实际数值推算得到的地球半径,明显大于理论的地球半径值(因为地球有点椭?)。.

2020-05-31 04:51:14 1179

原创 安装GPU版本的LightGBM的的正确姿势

【 安装GPU版本的LightGBM的的正确姿势 】1.install something:sudo apt-get install libboost-all-dev sudo apt install ocl-icd-opencl-dev2.Clone LightGBM and build with CUDA enabledgit clone --recursive https://github.com/Microsoft/LightGBM && cd LightGB

2020-05-26 19:30:15 6638 1

原创 pandas 显示设置

# pandas显示设置pd.set_option('display.max_rows', 10)pd.set_option('display.max_columns', 100)

2020-05-22 16:43:04 486

原创 linux 软连接

在当前目录建软连接aaa,指向了/zzz/xx/sssln -s /zzz/xx/sss aaa

2020-05-20 18:02:30 220

原创 【miniconda3安装】miniconda3安装后conda无效

下载安装 .sh:下载页面:https://docs.conda.io/en/latest/miniconda.html下载:wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh下载完成后:bash Miniconda3-latest-Linux-x86_64.sh依照提示完成安装。安装完成后直接使用conda命令依旧:$ conda search pythonco..

2020-05-19 17:22:12 6492

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除