- 博客(100)
- 收藏
- 关注
原创 常用端口号说明(持续更新)
port 8888 jupyter notebook 6006 tensorboard 8080 spark master
2020-07-21 16:40:38 980
原创 下载huggingface dataset数据量太大失败,使用snapshot_download
【代码】下载huggingface dataset失败,使用snapshot_download。
2024-06-12 14:20:50 211
原创 输入为一个list,输出为一个dict,其中包含这个list中对应的每个element以及它出现的次数,并且从出现次数最多的开始降序排列
【代码】输入为一个list,输出为一个dict,其中包含这个list中对应的每个element以及它出现的次数,并且从出现次数最多的开始降序排列。
2024-02-01 20:20:40 297
原创 Mengzi-BERT-base单模型未搜超参直接提交线上55.61 【2022 CCF BDCI 小样本数据分类任务 】
这份baseline代码是对train数据集进行4:1划分train、dev,dev f1-macro为。整理代码中,顺手给大家整理了一份baseline代码可以作为参考。1. 加载 模型 & tokenizer。直接提交submit.csv文件,得分。4. 划分 train dev 数据集。,提交test 对应得分为。3. 构建输入输出文本。
2022-09-23 19:31:59 902 2
原创 未能打开文稿“xxx.txt”。文本编码Unicode (UTF-8)不适用。txt文件GB2312编码转换utf-8编码格式方法
本文提供一种使用python将txt文件GB2312编码转换utf-8编码格式的方法。复制粘贴完整代码直接跳到看第三部分: 3. 解码使用GBK输出:可以看到是GB2312的编码格式。输出:可以看到设定gb2312解码报错了,查 相关资料 发现可能是 “处理的字符的确是gb2312,但是其中夹杂的部分特殊字符,是gb2312编码中所没有的。”GB2312,GBK,GB18030,是兼容的,包含的字符个数:GB2312 < GBK < GB18030生成的xxx_out.t
2022-06-22 16:01:01 1838
原创 查看NLP预训练模型参数量
from transformers import BertModel, BertConfigconfig = BertConfig.from_json_file('bert-base/config.json')bert_model = BertModel(config, add_pooling_layer=True)pytorch_total_params = sum(p.numel() for p in bert_model.parameters() if p.requires_grad)pr.
2021-10-28 16:00:10 813
原创 NLP预训练模型分层学习率衰减
# ref: <How to Fine-Tune BERT for Text Classification? > # 分层学习率衰减 # 基础学习率 lr_base = 5e-6 lr_classifier = 5e-5 # 衰减系数 xi = 0.95 lr = dict() lr[23] = lr_base for k in range(23,0,-1): lr[k-1] = 0.95*lr[k] .
2021-08-24 15:39:50 741
原创 如何选择合适的learning rate?
1. 设置一个较大的learning_ratelearning_rate = 1e-32. 设置warmup
2021-06-03 17:19:02 3618 1
原创 T5模型在训练过程中实时计算验证集上准确度,自定义compute_metrics
T5模型不同于bert类模型,它是一个seq2seq模型,它在训练过程中预测结果实时返回的是字典长度的置信度,想要在训练过程中实时监测在验证集上的准确度,可以自己添加自定义compute_metrics函数。以下为采用transformers框架训练添加自定义compute_metrics函数的代码:def compute_metrics(pred): ## 1.处理 pred.predictions # 每个样本的预测结果为vocab大小 predict_res = to
2021-04-15 14:43:46 1664 2
原创 dataframe多分类问题中多个模型的预测结果投票,一行代码
比如三个模型进行投票:df# 取票数最高的结果from collections import Counterdf['label'] = df.apply(lambda x: Counter([x.label1,x.label2,x.label3]).most_common()[0][0],axis=1)df红框部分即为投票结果。
2021-03-27 15:50:05 673
原创 中国计算机学会推荐国际学术会议 (人工智能)
为查看方便,存一份。Reference:https://www.ccf.org.cn/Academic_Evaluation/By_category/
2021-03-17 16:10:27 349
原创 python3 abc module 抽象类 使用demo
类似于接口的概念,便于统一API。定义一个base class:from abc import ABC, abstractmethodclass Person(ABC): @abstractmethod # 定义抽象方法,无需实现功能 def get_name(self) -> str: '''子类必须定义本方法''' pass @abstractmethod # 定义抽象方法,无需实现功能 def get_id(s...
2021-01-21 19:34:45 192 1
原创 显卡RTX 3090运行pytorch报错CUDA error: no kernel image is available for execution on the device
RuntimeError: CUDA error: no kernel image is available for execution on the device卸载当前版本的pytorch, 重新按照以下安装pip uninstall torchpip install torch==1.7.0+cu110 torchvision==0.8.1+cu110 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stable..
2021-01-12 02:07:58 9798 5
原创 703. 数据流中的第 K 大元素 python3 堆解法
703. 数据流中的第 K 大元素难度简单179收藏分享切换为英文接收动态反馈设计一个找到数据流中第k大元素的类(class)。注意是排序后的第k大元素,不是第k个不同的元素。请实现KthLargest类:KthLargest(int k, int[] nums)使用整数k和整数流nums初始化对象。 int add(int val)返回当前数据流中第k大的元素。示例:输入:["KthLargest", "add", "add", "add"...
2021-01-06 23:24:06 153
原创 剑指 Offer 40. 最小的k个数 - python3 堆解法
剑指 Offer 40. 最小的k个数输入整数数组arr,找出其中最小的k个数。例如,输入4、5、1、6、2、7、3、8这8个数字,则最小的4个数字是1、2、3、4。示例 1:输入:arr = [3,2,1], k = 2输出:[1,2] 或者 [2,1]示例 2:输入:arr = [0,1,2,1], k = 1输出:[0]限制:0 <= k <= arr.length <= 10000 0 <= arr[i]<=...
2021-01-05 23:53:59 286 2
原创 使用transformers的T5模型获取输入文本的sentence embedding句向量
from transformers import T5Tokenizer, T5Modelimport torchMODEL_NAME = 't5-small'print(f'Loading {MODEL_NAME} Model...')# 加载模型和tokenizertokenizer = T5Tokenizer.from_pretrained('t5-small')model = T5Model.from_pretrained(MODEL_NAME)# 输入文本并进行t...
2020-12-24 15:02:14 4132
原创 登陆服务器时发现nvidia driver显卡驱动不见了
1. 查看shutdown信息last -x shutdownlast -xlast -x | grep reboot发现是因为ubuntu kernal自动升级导致的。2. 关闭kernal自动升级(1) 查看 当前ubuntu kernal版本uname -r# 5.4.0-58-generic(2)关闭自动升级sudo apt-mark hold 5.4.0-58-genericDone....
2020-12-16 15:01:07 1377 2
原创 tensorflow动态申请显存
import tensorflow as tfgpus = tf.config.experimental.list_physical_devices('GPU')if gpus: try: # Currently, memory growth needs to be the same across GPUs for gpu in gpus: tf.config.experimental.set_memory_growth(gpu,...
2020-12-10 17:09:23 547
原创 ray报错整理 [raylet_client.cc:54] Could not connect to socket /tmp/ray/session /sockets/raylet
ray使用中常见报错整理及解决报错一:ray start 时报错:Could not terminate `"/usr/bin/redis-server 127.0.0.1:6379" "" "" "" "" "" "" ""` due to psutil.AccessDenied (pid=1866, name='redis-server')Stopped only 0 out of 1 Ray processes. Set `-v` to see more details.T.
2020-11-13 14:40:30 2406
原创 【bugfix】遇到一个conda 报错CondaValueError: prefix already exists (conda:4.8.1)
执行:conda create -n env_name_xxx python=3.7.7 -y报错:CondaValueError: prefix already exists用 conda info --envs 查看却没有env_name_xxx这个环境解决方法:直接删除目录:rm -r /home/xxx/miniconda3/envs/env_name_xxx就好了。以下为debug尝试:尝试force:conda create --force -n env_nam
2020-10-26 13:39:10 15360 5
原创 AutoML综述
《taking human out of learning applications: a survey on automated machine learning》AutoML出现的原因机器学习大量人工干预: 特征提取、模型选择、参数调节autoML试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化的学习autoML问题定义机器学习角度: autoML可以看做是在给定数据和任务上学习和泛化能力非常强的系统。他必须非常容易使用自动化角度: autoML是设计一系列高级的控制系统去操作机
2020-09-27 14:51:03 311
原创 手把手搭建ubuntu多台物理机hadoop hdfs流程
1.基础安装sudo apt updatesudo apt install vim2.校准linux系统时间sudo apt install ntpdate htopsudo ntpdate cn.pool.ntp.org3.创建hadoop用户:sudo adduser hadoop# spark password # 为hadoop用户添加sudo权限sudo vi /etc/sudoers# 把root那行复制后修改成hadoop,hadoop就有了root权限,需要su
2020-08-21 20:00:02 416
原创 树模型LightGBM CatBoost XGBoost的gpu单机多卡支持
LightGBM读文档没看到明确说多卡的设置好像要用到clinfo?哪位用过可否告诉我一下==CatBoost原生支持多gpu,直接设置参数:params['task_type'] = 'GPU'params['devices'] = '1,2,3' XGBoost可支持多gpu,需使用dask,可参考:https://github.com/dmlc/xgboost/blob/master/demo/dask/gpu_training.py...
2020-08-19 19:23:10 1255
原创 Leetcode 111. 二叉树的最小深度 递归实现及BFS算法的实现 python版
# Definition for a binary tree node.# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Nonefrom collections import dequeclass Solution: def minDepth(self, root: TreeNode) -> i.
2020-08-18 23:31:27 305
原创 Mac使用小技巧汇总
[ NOTE 1 ] :MacBook Pro 关闭独立显卡/开启集成显卡sudo pmset -a GPUSwitch 0 #强制使用集成显卡sudo pmset -a GPUSwitch 1#强制使用独立显卡sudo pmset -a GPUSwitch 2 # 自动切换p.s. 使用集成显卡外接显示器会没有反映,再输入自动选择命令即可。[ NOTE 2 ] : terminal高亮、ssh高亮本地高亮:编辑 ~/.bash_profile文件,加入以下代...
2020-08-14 15:19:51 616
原创 mac及ubuntu实用工具软件推荐
录屏工具obs【支持mac ubuntuwindows】ubuntu安装方式:# 先安装ffmpeg:sudo apt install ffmpeg# 再安装OBS Studio:sudo add-apt-repository ppa:obsproject/obs-studiosudo apt install obs-studio视频格式转换工具ffmpeg【支持mac ubuntu】安装方式:直接命令行安装sudo apt install f...
2020-08-12 14:00:02 291
原创 Leetcode 46. 全排列 51. N皇后 思路超清晰的回溯算法题python实现
class Solution: def permute(self, nums: List[int]) -> List[List[int]]: # 路径:记录在数组track中 # 选择路径: nums中不存在于track的那些元素 # 结束条件: nums中的元素全都在track中出现 def backtrack(nums,track): # 触发条件结束 if len(track.
2020-08-07 23:56:01 286
原创 cuda环境变量设置
cuda环境变量设置export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexport PATH=/usr/local/cuda/bin:$PATH
2020-08-07 18:50:17 13555
原创 Reinforecement Learning 论文及github仓库汇总
环境:参考github:https://github.com/openai/gymv0和v4的env差别在于有无0.25的repeat_action_probability,前者有,后者没有。有无ram的差别在于input,是2d image(pixel) 还是1d array。更详细的解释可参考:https://stackoverflow.com/questions/45207569/how-to-interpret-the-observations-of-ram-environments-i
2020-07-31 17:58:44 465
原创 强化学习 - OpenAI Gym初体验
STEP 1:miniconda新环境 python 3.7.7STEP 2:https://github.com/openai/gym安装openai gympip install gym报了两个包版本不兼容的error:ERROR: spyder 4.1.4 requires pyqtwebengine<5.13; python_version >= "3", which is not installed.ERROR: spyder 4.1.4 has.
2020-07-23 18:48:38 447
原创 KFold StratifiedKFold GroupKFold的应用场景及示例代码
1. kfold普通的k折交叉验证from sklearn.model_selection import KFold2. stratifiedkfold平衡label的k折交叉验证。在类别label不平衡时使用,如0、1分类时,0的样本量和1的样本量差异悬殊。from sklearn.model_selection import StratifiedKFoldskf = StratifiedKFold(n_splits=5, shuffle=True, random_...
2020-07-13 15:31:51 1230
原创 SpaceX crew demo-2, 关于第一宇宙速度
看了spacex的crew demo-2直播,最终速度大概如下 27012km/h,海拔198km。而第一宇宙速度7.9km/s,换算得到28440km/h。实际速度低于该值。按照万有引力定律:G是万有引力常数:M为地球质量:r为地球直径:altitude为海拔高度:1为海拔198km时,通过计算得到的第一宇宙速度。但crew demo-2实际上并未达到该值。2为crew demo-2实际数值推算得到的地球半径,明显大于理论的地球半径值(因为地球有点椭?)。.
2020-05-31 04:51:14 1200
原创 安装GPU版本的LightGBM的的正确姿势
【 安装GPU版本的LightGBM的的正确姿势 】1.install something:sudo apt-get install libboost-all-dev sudo apt install ocl-icd-opencl-dev2.Clone LightGBM and build with CUDA enabledgit clone --recursive https://github.com/Microsoft/LightGBM && cd LightGB
2020-05-26 19:30:15 6811 1
原创 pandas 显示设置
# pandas显示设置pd.set_option('display.max_rows', 10)pd.set_option('display.max_columns', 100)
2020-05-22 16:43:04 505
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人