- 博客(30)
- 收藏
- 关注
原创 本地IDE VsCode调试链表题(python)
本地IDE VsCode调试链表题(python)以LeetCode 25. K 个一组翻转链表为例以LeetCode 25. K 个一组翻转链表为例#定义ListNode()class ListNode(): def __init__(self, x): self.val = x self.next = None #将传入的数组转化为链表def create_linked_list(arr): head = ListNode(arr
2021-10-01 17:21:34 605
原创 Pytorch情感分析(task6)
BERT情感分析数据集步骤构建迭代器构建模型设定超参数创建实例选择损失函数和优化器train/evaluatetest数据集IMDB步骤使用 transformers library 来获取预训练的Transformer并将它们用作embedding层。将固定(而不训练)transformer,只训练从transformer产生的表示中学习的模型的其余部分。 在这种情况下,使用双向GRU继续提取从Bert embedding后的特征,最后在fc层上输出最终的结果。import torchim
2021-10-01 00:44:56 536
原创 Pytorch情感分析(task5)
多分类情感分析数据集导入数据数据集从二分类的情感分析进阶到多分类情感分析,数据集采用TREC数据集,这个数据包括6个不同的问题类型。导入数据import osimport timeimport torchimport torch.optim as optimimport torch.nn as nnimport torch.nn.functional as Ffrom torch.units.data import Dataset, DataLoaderfrom sklearn.mod
2021-09-28 21:54:41 469
原创 文本匹配相关知识整理(更新中)
文本匹配相关知识整理【更新中】短文本匹配一、无监督方式word2vector + 相似度计算BM25二、有监督方式Siamese Network匹配聚合网络三、预训练语言模型有监督方式 + 无监督方式文本匹配常见思路(不写trick)本人由于前段时间参加了讯飞中文重复问题识别挑战赛,对文本匹配这个方向做一下简单的梳理,方便参考学习以及面试。短文本匹配短文本匹配即计算两个短文本的相似度,通常分成无监督方式、有监督方式、有监督+无监督方式一、无监督方式考虑文本表征和相似度计算两个方面文本表征:词袋模
2021-09-28 16:32:58 1855
原创 Pytorch情感分析(task1)
目录数据集简单的RNN模型搭建整体架构数据预处理数据集IMDb数据集简单的RNN模型搭建将使用pytorch和torchtext构造一个简单的机器学习模型来预测句子的情绪(即句子表达的情绪是正面还是负面)。整体架构数据预处理import torchfrom torchtext.legacy import data# 设置随机种子数,该数可以保证随机数是可重复的SEED = 1234torch.manual_seed(SEED)torch.backends.cudnn.determi
2021-09-16 00:25:21 493
原创 PyTorch情感分析(task0)
目录软件和版本环境配置参考软件和版本根据项目要求重新配置了个环境…Pytorch == 1.8及以上torchtext == 0.9及以上Python == 3.7transformer == 4.3(现用4.6.1)环境配置还需要安装spaCy用于标记数据,按照https://spacy.io/usage的指令参考https://github.com/datawhalechina/team-learning-nlp/tree/master/Emotional_Analysi
2021-09-14 00:28:02 290
原创 文本分类——数据分析预处理
文本分类——数据分析预处理当做个人备忘录加载数据查看缺失值查看标签分布并绘制直方图查看文本长度拼接标题后查看文本长度当做个人备忘录加载数据import reimport numpy as npimport pandas as pdtrain = pd.read_csv('./data/train.csv', sep='\t')test = pd.read_csv('./data/test.csv', sep='\t')sub = pd.read_csv('./data/sample_sub
2021-09-13 16:36:02 819
原创 Datawhale开源教程学习——基于Transformer的NLP学习(BERT&GPT )
目录BERT的背景举例:用在句子分类模型架构模型输入模型输出BERT的背景BERT在2018年出现。2018 年是机器学习模型处理文本(或者更准确地说,自然语言处理或 NLP)的转折点。在 BERT 的论文发布后不久,这个团队还公开了模型的代码,并提供了模型的下载版本,这些模型已经在大规模数据集上进行了预训练。这是一个重大的发展,因为它使得任何一个构建构建机器学习模型来处理语言的人,都可以将这个强大的功能作为一个现成的组件来使用,从而节省了从零开始训练语言处理模型所需要的时间、精力、知识和资源。使用B
2021-08-21 00:13:00 299
原创 Datawhale开源教程学习——基于Transformer的NLP学习(Transformer&Attention )
目录Task01&02Transformer的背景图解Attention图解Transformer细节理解Transformer输入EmbeddingSelf AttentionTask01&02Transformer的背景基于深度学习(Deep Learning)的NLP技术在各项任务中取得了很好的效果,这些基于深度学习模型的NLP任务解决方案通常不使用传统的、特定任务的特征工程而是仅仅使用一个端到端(end-to-end)的神经网络模型就可以获得很好的效果。常见的NLP任务主要分
2021-08-19 00:06:17 474
原创 Datawhale开源教程学习——集成学习(task7 Stacking和案例一)
目录Task07 Stacking和案例一Blending和StackingTask07 Stacking和案例一Blending和StackingBlending将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);创建第一层的多个模型,这些模型可以使同质的也可以是异质的;使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict, test_pred
2021-07-29 00:43:02 183
原创 Datawhale开源教程学习——集成学习(task6 Boosting)
目录Task06 BoostingQ1: Adaboost的基本思路?Q2:Adaboost与GBDT的联系和区别?Q3: Boosting与Bagging的区别,以及如何提升模型的精度?Task06 BoostingQ1: Adaboost的基本思路?A1:在提到Adaboost之前,先稍微解释一下Boosting。Boosting可以理解为不断地重复学习达到最终的要求。在学习中,如果已经发现了弱可学习算法,能否将他提升至强可学习算法。因为,弱可学习算法比强可学习算法容易得多。提升方法就是从弱学习
2021-07-26 00:35:48 182
原创 Datawhale开源教程学习——集成学习(task5 Bagging)
目录Task05 BaggingQ1:什么是bootstraps?Q2:bootstraps和bagging的联系。Q3:什么是bagging?Task05 Bagging集成学习(模型融合中的一个分类)主要包括:BaggingBoostingStackingBagging由booststraps演变而来;Boosting类似叠加式算法;Stacking把模型分为模型一和模型二,把模型一的结果当做特征送入模型二做训练。目的都是将弱分类器变成强分类器。Q1:什么是bootstraps?
2021-07-23 00:14:10 192 1
原创 Datawhale开源教程学习——集成学习(task4分类问题)
目录Task04 分类问题度量分类的指标1、混淆矩阵准确率(Accuracy):分类正确的样本数占总样本的比例(==真阳性和真阴性占总样本比例==),即:ACC=TP+TNFP+FN+TP+TNACC = \frac{TP+TN}{FP+FN+TP+TN}ACC=FP+FN+TP+TNTP+TN.精度(Precision):预测为正且分类正确的样本占预测值为正的比例(==真阳性占预测为阳性的比例==),即:PRE=TPTP+FPPRE = \frac{TP}{TP+FP}PRE=TP+FPTP.召回率(
2021-07-21 00:27:46 420
原创 Datawhale开源教程学习——集成学习(task3偏差和方差理论)
目录Task03 偏差和方差理论Q1:用一个具体的案例解释什么是偏差和方差?Q2:偏差与方差和误差之间的关系。Q3:训练误差与测试误差之间的联系和区别,如何估计测试误差?Q8:用sklearn,对一组数据进行特征简化(三种方式),再使用回归模型,最后用网格搜索调参,观察三种方法的优劣。Task03 偏差和方差理论均方误差的概念:即:MSE=1N∑i=1N(yi−f^(xi))2MSE = \frac{1}{N}\sum\limits_{i=1}^{N}(y_i -\hat{ f}(x_i))^2MSE=
2021-07-19 00:23:14 199 2
原创 Datawhale开源教程学习——集成学习(task2机器学习基础模型)
目录Task02 机器学习基础模型一、导论使用sklearn构建完整的机器学习项目流程二、作业Q1:详细阐述线性回归模型的最小二乘法表达。Q2:在线性回归模型中,极大似然估计与最小二乘估计有什么联系与区别。Q3:为什么多项式回归在在实际问题中的表现不是很好?Q4:决策树模型与线性模型之间的区别和联系?Q7:找一个数据集,使用线性回归模型拟合数据,要求不使用sklearn,只使用python和numpy。Task02 机器学习基础模型一、导论机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中
2021-07-16 00:36:58 358
原创 Datawhale开源教程学习——集成学习(task1数学基础)
目录Task01 数学基础一、实验问题二、尝试解答1.绘图2.求全局最小值和相应的最小解Task01 数学基础一、实验问题二、尝试解答1.绘图首先用matplotlib包绘制出Rosenbrock函数尝试改变a,b的取值当a = 1, b = 0时,图像右半边部分会向下缩当继续增大a的值a = 2, b = 0时,可以发现右半边图像继续向下。当继续增大a的值a = 10, b = 0时,如图所示。将a的值改为-10,b依旧保持0,如图所示。接下来改变b的值a = 0 ,
2021-07-14 00:14:55 217
原创 Datawhale开源教程学习——Linux(day5Linux磁盘管理)
目录Day05 Linux磁盘管理一、磁盘二、磁盘管理2.1 添加硬盘2.2 磁盘管理机制2.3 分区2.3.1分区概念2.3.2 分区常用命令2.4 格式化2.4.1 格式化常用命令2.5 挂载后记Linux学习往期地址:Datawhale开源教程学习——Linux(day1系统简介及day2详细系统安装、搭建、配国内源、常用终端快捷键)Datawhale开源教程学习——Linux(day3Linux用户和组管理)Datawhale开源教程学习——Linux(day4Linux文件和目录管理)
2021-06-26 23:11:44 500 3
原创 Datawhale开源教程学习——Linux(day4Linux文件和目录管理)
目录Day04 Linux文件和目录管理一、Linux目录1.1 目录详解1.2 Linux文件1.2.1 Linux文件类型1.2.2 文件权限1.3 常用命令Day04 Linux文件和目录管理一、Linux目录在Linux中,目录为树状的结构。目录以“/”为起始,也称为根目录。由于目录繁多,所以有一套专门的目录规范,Linux目录一般可以分成以下四种:static:固定的 variable:可变的 shareable:可分享的 unshareable:不可分享的“可共享”文件是指可以存
2021-06-23 00:13:27 144
原创 Datawhale开源教程学习——Linux(day3Linux用户和组管理)
目录Day03 Linux用户和组管理一、用户与用户组1.1 用户的定义1.2 用户组的定义1.3 用户与用户组的关系二、用户ID与用户组ID三、用户与用户组命令管理3.1 用户的增删修改3.2 用户组管理Day03 Linux用户和组管理一、用户与用户组1.1 用户的定义Linux是多用户多任务的操作系统,用户在使用系统资源时需要向管理员申请账户进入系统。不同用户具有不同的权限。用户分为普通用户和管理员。1.2 用户组的定义Linux除了用户,还有用户组的概念。当需要让多个用户都拥有某一权限
2021-06-19 18:23:40 314
原创 Ubuntu20.10 成功安装搜狗输入法的教程(图文详解)
1.首先安装fcitx在终端(Ctrl+Alt+T打开)输入sudo apt-get install fcitx2.在搜狗输入法网页选择linux版本https://pinyin.sogou.com/linux/两个版本,选择2.4.0.3469版本(下图蓝色)(误:之前选2.3.1.0112折腾了好久没装上)3.移动安装包到主目录因为安装包默认下载到 主目录/下载 中,要复制到主目录中,才能由命令进行安装。否则会报错 dpkg:错误:无法访问归档’sougoupinyin_2.3
2021-06-16 20:07:13 4772
原创 Datawhale开源教程学习——Linux(day1系统简介及day2详细系统安装、搭建、配国内源、常用终端快捷键)
Datawhale开源教程学习——Linux想学一些有关linux的上手入门课程,目前用VirtualBox跑Ubuntu 20.10这里写目录标题Datawhale开源教程学习——LinuxDay01 Linux简介什么是Linux以及为什么用Linux常见Linux发行版Day02 Linux系统安装Day03 Linux用户和组管理Day04 Linux文件和目录管理Day05 Linux磁盘管理Day01 Linux简介什么是Linux以及为什么用LinuxLinux是一种免费试用和自由传
2021-06-14 20:48:50 292
原创 Jupyter Notebook 导入tensorflow内核挂掉重启的解决办法
问题描述在Anaconda Prompt中选择虚拟环境,并打开jupyter notebook,导入tensorflow包后出现内核挂掉重启的问题。在Anaconda Prompt终端是这样的显示解决方法在当前虚拟环境下 卸载h5py并重装pip uninstall h5pypip install h5py重启jupyter notebook就可正常使用了!...
2021-06-14 20:02:10 7373 10
原创 Anaconda虚拟环境常用管理命令(查询、创建、激活、退出、删除)
conda常用命令查看安装了哪些工具包conda list查看当前存在哪些虚拟环境conda env list检查更新当前condaconda update conda创建虚拟环境创建python版本为x.x,名字为your_env_name的虚拟环境,虚拟环境统一存放在Anaconda\envsconda create -n your_env_name python=x.x(2.7、3.6等)激活、切换虚拟环境activate your_env_name切换完以后,再用c
2021-06-11 17:33:46 422 2
原创 Jupyter Notebook出现 kernel error或者出现python入口错误的解决办法
出现kernel error情况解决办法以管理员身份运行Anaconda Prompt,输入jupyter kernelspec list查看安装的kernel以及对应的路径。找到路径中kernels文件夹下面的kernel.json文件,以记事本打开,一般出错的原因就在于默认调用的python.exe地址不对。修改"argv":[]中的路径,之前的报错原因在于这里的路径对应到已经删除的某个虚拟环境中的python.exe。改好后保存,重启Jupyter Notebook。
2021-06-11 17:13:24 738 2
原创 机器学习项目2-葡萄酒质量和年份的关系
[机器学习]葡萄酒质量和年份关系简介代码简介调用葡萄酒质量的csv文件,对葡萄酒质量与年份的关系进行探究代码import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_splitdata = np.genfromtxt('linear.csv',delimite
2021-01-10 21:08:32 588 1
原创 【从零开始】手写数字识别降维可视化学习笔记
手写数字识别降维可视化代码# coding: utf-8from sklearn.neural_network import MLPClassifierfrom sklearn.datasets import load_digitsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_report,confusion_matriximport numpy
2020-12-01 15:08:28 503
原创 【从零开始】主成分分析(PCA)学习笔记
主成分分析(PCA)学习笔记PCA算法流程PyCharm实现PCA算法流程1、数据预处理2、求协方差矩阵3、对协方差矩阵做特征值分解4、选出最大的K个特征值对应K个特征向量5、将原始数据投影到选取的特征向量6、输出投影后的数据集PyCharm实现pycharm代码实现// An highlighted blockimport numpy as npimport matplotlib.pyplot as pltdata = np.genfromtxt('data.csv',deli
2020-11-28 22:32:56 339
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人