Petersburg-CSDN博客

文章目录主题梯度相关主题记录有关tensor操作的进阶版，有一个初级版，可以在此参考。后续用到之后进行更新梯度相关torch.stack；通常而言我们在拿到一个list of tensors的时候，需要通过将内部tensor进行detach clone cpu numpy等系列操作后才能通过构造函数 torch.tensor 得到一个数据相同的tensor of tensors。但是其中的操作detach 与 clone都是会清除当前gradient的方法。当我们需要得到当前数据的同时保存当前梯

2022-04-15 14:45:49 1070

原创【python UnicodeDecodeError pickle open】Python 2.x -＞ 3.x str前有u

文章目录原因str 前有u情形一非pickle场景下情形二 pickle场景下原因python在2.x与3.x版本之间常常会因为字符编码的不融洽的问题出现UnicodeDecodeError这个问题。str 前有u利用str.encode进行解决string = u'anomaly'print(string.encode('utf-8')) # 'anomaly'更具体的内容参考：https://blog.csdn.net/qq_21153619/article/details/8484

2022-04-14 22:18:48 615

原创【selenium (chrome) + python】n级引用/被引用文献爬取 & 爬虫库介绍

文章目录爬虫库本次任务具体情况一些方法代码爬虫库我目前接触到的爬虫库有scrapy，requests + Beautifulsoup or etree以及这个新遇到的selenium。其本质上的不同我并不是很了解，但是从调用的方式方法上来看，可以浅显地这么进行分类：scrapy通过实现类的继承，通过对于自身方法的重写实现爬取动作。优势：快，非常快；缺点：难以调试，不好写；适用情形：大型爬虫项目selenium的本身思路在于调动浏览器本身进行操作，会加载各种的脚本渲染等，因此其缺点非常明显：慢，

2022-04-09 23:17:08 978 2

原创【资源向】论文+插件+网站

Introduction各位看官，此篇本意是记录在科研及生活中遇到的能极大提高生产力的一些小玩意儿和博文，最起码现在来看都是小玩意儿。会不断迭代增添，最后到一定程度不得不整理的时候大概会是一个比较有用的东西吧。正文https://zhuanlan.zhihu.com/p/410776234 这是一篇讲解self-attention的一篇神文，表述清晰配图丰富，在食用难度上属于薯片级别https://blog.floydhub.com/attention-mechanism/ 讲解attenti

2022-03-27 13:23:59 190

原创【情感分析 PyTorch】RNN于IMDB数据集上的表示

RNN是啥Recurrent Neural Network(RNN)，循环神经网络的优势在于能够处理任意长度的输入（或者说流式(strem)输入，插一嘴，博主非常讨厌这种故作玄虚的称呼，似乎显得提出者高大上，实际只能让后来者在单独学习的时候费尽力气）。简单的来说，一句话**“go to bed instead of go mad”**，可以通过分词将这句话分为：['go', 'to', 'bed', 'instead', 'of', 'go', 'mad']。在这之后，我们可以用一些pretrained的

2022-03-26 23:31:24 4098 5

原创【IR Information Research】信息检索多样化方面常见的metrics

文章目录IR是什么Metrics存在的问题&解决方案将metrics loss化ReferenceIR是什么粗略的理解就是在海量的信息中抓取有用的那几个，最常见的应用就是搜索引擎。百度存有千亿级别的网页，而根据用户的query需要在第一页给出最符合要求的那些。这个领域中目前的方法可以分为两类：implicit & explicit。前者主要关注于在一堆文档中进行分类，后者关注于query的信息。当然还有hybrid的一些研究方法。在优化返回给用户的信息时，由于query通常有着不确定

2022-03-25 15:41:46 1360

原创【Bag of Words BoW】词袋模型

BoW概览处理对象：最开始的词袋模型，正如其名所示是为了处理文字相关的问题，特别的在文本分类进而在文本检索方面有着良好的应用。在后面的发展中，词袋模型逐渐将分类依据抽象出来从而被泛化应用到诸如图像分类与表示等方面。处理特点：对于一句话而言，BoW并不关心这句话的语法构成，或者说是单词的排列顺序，而是关心在这句话中每个词汇各出现了多少次。比如My friend Jack like Jack Ma.这里面出现了：my，friend，Jack，like，Ma 这些词汇它们共出现了：1，1，2，1，1 次

2022-02-28 23:34:05 487

原创【Pytorch再爱我一次】Tensor 基本操作

torch.tensor 与 torch.Tensor在之前用的过程中，没有注意到二者有什么明显的差别，因为总而言之都返回一个能用的张量，但是凡事不能不求甚解。torch.tensor是一个函数，由传入的data构造一个torch.LongTensortorch.Tensor是一个类，会默认调用该类的构造函数，默认返回类型为torch.FloatTensor一个有意思的地方是，torch.tensor会看你传入的参数类型，如果全是整数且未指定dtype，会优先返回一个torch.LongTens

2022-02-23 09:29:44 1084

原创【Linux + Anaconda3 + cuda + vscode ssh】一篇文章弄好vscode远程开发环境配置(pytorch tensorflow)

利用vscode与ssh插件连接服务器我当时看的这篇知乎，讲得很详细https://zhuanlan.zhihu.com/p/412736012但是注意，在配置config文件时，IdentityFile这个属性并不是必须的，这是为了每次登录免输入密码搞的公钥私钥。但一般情况下如果服务器不是自己的应该配置不了这个东西利用命令行下载+安装Anaconda3参考这篇简短的博客，注意选择好自己要下载的版本https://blog.csdn.net/flora_zhl/article/details/1

2022-02-07 18:20:10 2669

原创【射雕英雄传】文本分析初步第二弹【gensim word2vec lda roberta】

大数据分析的期末大作业之二词向量主题分析情感分析词云绘制

2022-01-01 18:54:12 1104

原创【logistic 回归】概论 + 细节

简单易懂的入门知识，与一篇高质量文章的分享

2021-12-20 01:22:22 1550

原创【射雕英雄传】文本分析初步（姓名，丹药，秘籍，招式）[scrapy, jieba, matplotlib]

大三上学期选了学校高瓴开的大数据分析导论，最后的final分为两个部分，本文讲述第一部分的完成步骤。大致可以描述为：爬取文章，从本文本构造user_dict，利用jieba分词，分门别类统计词频并绘图。在此做个小预告，final第二部分是绘制词云、主题抽取、利用word_embedding进行相关性分析以及自主探索，后面做完作业再更新，放在一个主题下方便查找。文章目录内容的爬取user dict的构造user dict概述核心思想【以姓名提取为例】丹药与秘籍提取地点提取绘图内容的爬取感觉爬虫这个玩意

2021-12-17 16:18:22 1588

原创【python-scipy】scipy.cluster.hierarchy 学习 & 总结 (fcluster, linkage等)

对linkage，fcluster的参数进行讲解，对输出矩阵Z进行讲解

2021-12-17 00:47:15 6897

原创 pytorch 踩坑： only one element tensors can be converted to Python scalars

错误原因：有一个列表是A，其元素是多个tensor，这时会如题报错。解决方案是，将A的元素先转化为ndarray，再变换为tensor。具体操作如下：如果是在gpu上，由于在gpu中不能转换为arrayA = torch.tensor( [item.cpu().detach().numpy() for item in A] )如果是在cpu上：A = torch.tensor([item.detach().numpy() for item in A])...

2021-09-08 14:21:51 33948 4

原创 python 类内变量和函数定义重名

结论在底层实现中，在声明python类时，会按照声明的顺序把变量和函数的指针装到某个容器里，并在调用的时候从头到尾遍历，名字匹配即返回。事发经过之前在写python的时候，脑子一抽，写了这样的代码（大致）class char_embedding(): def __init__(self, size_1, size_2): self.char_embedding = nn.Embedding(size_1, size_2) def char_embedding(self, x): re

2021-08-30 21:29:25 2177

原创 GAN简介与复习基于pytorch

概要GAN（Generative Adversarial Network）生成对抗网络。其实要理解GAN的构想逻辑并不难，像其他的一些模型比如说最最基础的nn.Linear() + nn.ReLU()，或者是RNN模型，我们不妨把这个模型看成一位武侠，他的目的是要跟江湖上尽可能多的人（data）过招（train），目的是在未来遇到邪恶的坏蛋（真实情景应用）时能够一招制敌（给出正确的结果）。但是天不遂人愿，在茫茫的人海中，真正的武林高手有几个？又有几个能被我遇到？今天打过了丐帮的降龙十八掌，明天谁知道会不

2021-08-27 23:27:54 250

原创关于卷积与逆卷积 nn.ConvTranspose2d

我们以下的讨论都限制在正方形的input, kernel, stride上面，一般矩形情况下，每一条边的情形同理可得。我们先规定以下本文中的符号表示：卷积时的输入矩阵的大小: input卷积时卷积核的大小： kernel卷积时步幅的大小： stride卷积时pad： padding卷积输出的大小： output注：这里的表示针对卷积过程，在讨论逆卷积的时候， output则代表逆卷积中的输入， input代表逆卷积中的输出， kernel stride代表在卷积过程中的size，padd

2021-08-26 11:27:51 378

原创 python使用 += 向list中添加string元素

当把一个string直接以元素的形式加进去，程序默认以单个字母的形式加进去。具体情形与解决方案见下：str = 'This'L = []L += str # L = ['T', 'h', 'i', 's']L1 = []L1 += [str] # L1 = ['This']亦可使用append方法...

2021-08-17 20:16:27 3768

原创 python 频繁调用函数时间显著提高

函数的输入变量我们定义一个类与其构造函数class MyDataset(): def __init__(self, vocab, text): ``` text是一个list,为一篇文章分词之后的结果 eg. ['this', 'is', 'a', 'blog'] vocab是一个类，其有函数接口get_stoi()得到一个字典，里面包含text所有内容 ``` # method 1 self.embedded = [ vocab.get_stoi[word] for wo

2021-08-17 16:37:46 578

原创 Pytorch中nn. 与nn.functional 的区别

nn. 中和 nn.functional中有很多名字相似功能一致的东西，那同样一个东西为什么要留两个使用方式呢？区别又是什么？先上一篇我觉得写得非常清楚的博客，详细内容见下https://blog.csdn.net/chanbo8205/article/details/114890006简要概略：nn.XXX均为一个类的实现，其均继承自一个祖父类nn.Module而nn.functional为函数的实现二者的运行效率等几乎一致，可以理解为这两个中一个是类的接口一个是函数的接口。如果要谈论二

2021-08-16 19:47:20 329

原创 torch.nn.AvgPool2d 图解

首先介绍一篇文章，写得比较清楚。https://blog.csdn.net/geter_CS/article/details/80408782运用该文章中的例子，shape为[2,2,4,4]的input，第一个代表有两个batch,第二个代表有两个feature map，最后两部分则是用来做平均取样的维度44。函数AvgPool2d中有两个重要的参数，一个是kernel_size，一个是stride，第一个表示你取样的window大小，第二个则表示为你取样window上下左右移动步幅的大小。每

2021-08-15 14:54:53 5703

原创友学摘桃子

先上题这道题有两种思路：首先是遍历其次是递推我们会在后面看到，观察并利用递推关系会给我们计算的效率带来显著的提高遍历我最开始就是一个DFS递归回溯遍历的想法，从尾行遍历到顶行，每次往上走左枝或者右枝（注意处理本行左端和本行末端的特殊情况）。但是DFS由于会走所有的路线，对于这种结点比较丰满的树而言，计算复杂度会随着行数的增加迅速上升。因此在测试的时候，并不能迅速解决25+的问题。递推对于第一行，由于只有一个数，这就是当前的最大值对于第二行的第一个节点，由于上一行只有一个分支，总桃子

2021-08-12 15:21:34 155

原创 Python 问题经验（更新中...

Python学习问题集锦_1最近暑假跟着学校老师学深度学习，安好了anaconda, pytorch，把玩了jupytor notebook，最后不得不搞这个只听过没看过的python。接触下来的确很多地方由于语法的问题写起来、看起来比C++要舒服很多，不过也有很多新问题需要吐槽，仅以此文加以纪念，可能更新，随缘首先必须提一下让我起意写这玩意儿的动机，在友学题的时候，有一个修复照片的，思路很简单，一个二维数组循环遍历更新数据，但是，啊，就总nm要出点幺蛾子。关于列表深拷贝与浅拷贝的事对于一个列表a，

2021-06-30 00:02:27 126 2

原创 leetcode中“原地修改”题目的写法启示

开始的想法是遍历数组，遇到val就把指向位置后面所有的元素往前挪1。这样时间成本太高了，看到有用双指针的写法：同样是遍历Nums，但是遇到 !val 时把这个值写在慢指针指向的地方，这样复杂度就降低了。...

2020-07-29 16:36:36 605

原创一道leetcode简单题的启示

原题描述为Listnode* func( Listnode *l1, Listnode *l2)通过这个函数把两个升序链表做按顺序排在一个链表里。我的解决方案是这样的// 谨防空指针if (l1 == nullptr) return l2; if (l2 == nullptr) return l1; // 把l2插到l1里面 ListNode *result = l1; l1 = l1->next; while (l2 != nullptr){ // 通过这两个指针

2020-07-29 15:53:39 127

空空如也

空空如也