- 博客(31)
- 资源 (6)
- 收藏
- 关注
原创 pytorch笔记-实现一个图像分类模型
定义一个神经网络结构1.数据引入import torch from torch import nn from torch.utils.data import DataLoader from torchvision import datasets from torchvision.transforms import ToTensor2.训练集与测试集我们用到的数据集是FashionMNIST,是一个图像数据集,用它来进行分类任务。dataloader用来存放相应的训练数据以及对应的标签da
2022-04-26 11:13:52 2072
原创 BERT模型自定义词汇以及token相关
1.加载bert模型及分词from transformers import AutoModelForMaskedLM, AutoTokenizermodel = "bert-base-cased"tokenizer = AutoTokenizer.from_pretrained(model, use_fast=True)model = AutoModelForMaskedLM.from_pretrained(model)2.分词演示这里是对COVID hospitalization分词p
2021-08-17 22:38:15 2637 1
原创 文本生成解码策略笔记-常见解码策略
文本解码时,每一个时间步不断的解码得到当前的文字,当前文字到底生成候选词典(vocab)中的哪一个,需要一定的策略,显然遍历的复杂度较高;例如,如果时间步是T=500,候选vocab容量为5000,则随机遍历复杂度可达到${1000}^{500}$,显然,这里有很多的改进空间,本文列举了一些常见的优化方法。
2021-07-18 16:28:03 2079 1
原创 BERT模型的结构,特点和实践
基于bert和pytorch的文本相关性实践一、背景介绍二、预训练模型bert三、准备建模1. 数据准备2. 预处理输入输出3. 模型搭建、损失函数选择4. 模型评估四、总结二级标题合理的创建标题,有助于目录的生成如何改变文本的样式一、背景介绍二、预训练模型bert三、准备建模1. 数据准备2. 预处理输入输出3. 模型搭建、损失函数选择4. 模型评估四、总结你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章
2020-12-27 20:24:02 9830 1
原创 有向传递闭包问题
问题: 一个 n 个节点的有向图的传递闭包可以定义为一个 n 阶布尔矩阵 T,使得当第 i 个顶点到第 j 个顶点的路径长度为正时,T[i, j]=1;否则,T[i, j]=0( i>=1,j<=n)。请设计一个算法来求该传递闭包,并分析你设计的算法的时间复杂度。思路:定义一个二维数组,例如a[i][j],i,j属于[1,N]表示这个矩阵;用dp[i][j]表示i与j...
2020-02-09 11:52:52 550
原创 循环队列的实现笔记-c++
实现方式一 数组实现/****实现方式一 数组实现**/#include <iostream>using namespace std;class Queue{private: int *data; //定义指向整型的指针,从而动态开辟内存 int head,tail,length,count; //head指向队首,ta...
2020-02-09 11:15:16 205
原创 按字典顺序比较两个字符串(java)
public static int compareString(String str1,String str2){ for (int i = 0,j=0; i <str1.length()&&j<str2.length() ; i++,j++) { if(str1.charAt(i)>=str2.charAt(i)){...
2020-02-08 10:32:35 2494
原创 平衡二叉树建立、实现和判断
(一)平衡二叉树 1.定义它是一棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。 2.建立序列结点依次插入,构建平衡二叉树,为了保持各节点的平衡,根据各结点的插入位置,采用不同的旋转方式构建平衡二叉树 平衡二叉树旋转原理参考https://blog.csdn.net/innobase/...
2020-02-08 10:13:08 185
原创 动态规划系列-连续的子数组和(leetcode523)
【问题描述】 给定一个包含非负数的数组和一个目标整数k,编写一个函数来判断该数组是否含有连续的子数组,其大小至少为 2,总和为 k 的倍数,即总和为 n*k,其中 n 也是一个整数。示例:输入: [23,2,4,6,7], k = 6输出: True解释: [2,4] 是一个大小为 2 的子数组,并且和为 6。【题解】1.暴力法public class...
2019-11-24 19:13:45 374 2
原创 jieba分词相关、join合并列表元素
import jiebastr1="今天来到了天安门广场"seg_list=jieba.cut(str1) #结果是个生成器,还不能直接使用print("输出1",seg_list)z=[x for x in seg_list] #将分词的结果保存到列表中,可以看到元素是分好的词,列表长度即为分好的词的数量print("输出2",z)aa=zprint("输出3",aa)xx...
2019-10-09 20:44:52 3254 1
原创 leetcode-二叉树中的最大路径和
题目描述给定一个非空二叉树,返回其最大路径和。本题中,路径被定义为一条从树中任意节点出发,达到任意节点的序列。该路径至少包含一个节点,且不一定经过根节点。示例 1:输入: [1,2,3] 1 / \ 2 3输出: 6示例2:输入: [-10,9,20,null,null,15,7] -10 / \ 9 ...
2019-05-04 16:55:50 277
原创 np.dot和np.matmul的区别与联系
1.二者都是矩阵乘法。2.np.matmul中禁止矩阵与标量的乘法。3.在矢量乘矢量的內积运算中,np.matmul与np.dot没有区别。4.np.matmul中,多维的矩阵,将前n-2维视为后2维的元素后,进行乘法运算。>>>import numpy as np>>>a=np.array([1,2,3])>>> b=np.a...
2019-05-04 16:25:07 3021
原创 机器学习—数据清洗总结
需要清洗数据的主要类型:¶残缺数据、错误数据、重复数据数据清洗方法:¶(1)不完整数据:经验推导,平均最大最下,甚至概率估计,或建立回归模型,插值法等 (2)错误值检测,异常点检测,偏差分析,规则库等 (3)重复值,将重复记录合并、清楚数据清洗的评价标准¶(1)可信性,可信性包括精确性、完整性、一致性、有效性、唯一性等指标。¶(1)精确性:描述数据是否与其对应的客观实体的特...
2019-04-26 17:29:24 5798
原创 彻底理解文本主题模型LDA(极致原理讲解+实战)
原理讲解LDA基础https://www.cnblogs.com/pinard/p/6831308.htmlLDA求解之Gibbs采样https://www.cnblogs.com/pinard/p/6867828.htmlLDA之非负矩阵求解https://www.cnblogs.com/pinard/p/6812011.html代码实战文章链接:https://towar...
2019-04-25 15:06:43 3154
原创 leetcode不同路径-结题( C++、Python、解析式)
题目描述:一个机器人位于一个m x n网格的左上角 (起始点在下图中标记为“Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角[m-1,n-1]位置。问总共有多少条不同的路径?例如,上图是一个7 x 3 的网格。有多少可能的路径?说明:m和n的值均不超过 100。示例1:输入: m = 3, n = 2输出: 3解释...
2019-04-17 23:05:47 242
原创 脚本语言、编程语言区别与联系
编程语言特点(1)用来定义计算机程序的形式语言,是一种将程序员所定义的代码,编译即翻译成计算机所认识的二进制代码的工具,(2)编译语言是程序在执行之前需要一个专门的编译过程,运行时不需要重新编译,直接使用编译的结果就行了,脱离其语言环境独立执行。程序执行效率高,使用方便。但程序(3)一旦需要修改,必须先修改源代码,再重新编译生成新的目标文件才能执行。因需依赖编译器,故跨平台性差些。C...
2019-04-17 22:39:35 629
原创 Python-split()函数的使用
用途:可以用于把narray分成几份。axis:0,1分别表示按行、列维度拆分(取平均)示例:numpy.plit(ary, indices_or_sections, axis=0)import numpy as npb= np.arange(48).reshape(6,2*4)print(b)print(np.split(b,1,axis=1))print(np....
2019-04-17 11:52:46 429
原创 推荐:26种NLP练手项目(代码+数据)
1.分词 Word Segmentationchqiwang/convseg,基于CNN做中文分词,提供数据和代码。对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word SegmentationIJCNLP2017.2.词预测 Word PredictionKyubyong/w...
2019-04-12 10:47:25 6464
原创 sklearn中predict_proba、predict用法
总的来说,predict返回的是一个预测的值,predict_proba返回的是对于预测为各个类别的概率。predict_proba返回的是一个n 行 k 列的数组,第 i行j列的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。predictimport numpy as npX = np.array([[-1, -1], [-2, -1], ...
2019-04-11 19:51:34 30982 8
转载 Python-copy()与deepcopy()之间的主要区别
copy()与deepcopy()之间的主要区别是python对数据的存储方式。首先直接上结论:—–深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。 —–...
2019-04-05 15:27:04 221
转载 【转载】Python中numpy 数组的切片操作
Python中numpy 数组的切片操作简介取元素 X[n0,n1]切片 X[s0:e0,s1:e1]切片特殊情况 X[:e0,s1:]示例代码输出结果简介X[n0,n1]是通过 numpy 库引用二维数组或矩阵中的某一段数据集的一种写法。类似的,X[n0,n1,n2]表示取三维数组,取N维数组则有N个...
2019-03-28 15:40:22 300
原创 tf.concat用法总结
tf.concat是连接两个矩阵的操作,tf.concat(values,dim,name='concat')按照dim给定的维度进行拼接,即,相应的维度增加,例子如下: 矩阵维度简单情形(shape为[2,3]) t1 = [[1, 2, 3], [4, 5, 6]] t2 = [[7, 8, 9], [10, 11, 12]] 拼接后结果: tf.concat...
2019-03-27 19:52:04 727
原创 LeetCode-合并两个有序链表(c++实现)
/*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode(int x) : val(x), next(NULL) {}* };*/class Solution {public: ListNode* mer...
2019-03-26 21:10:08 455
原创 Python压平嵌套列表的一种方法
把嵌套级别的多级列表看成是树状结构:定义函数:def flat(tree): res = [] for i in tree: if isinstance(i, list): res.extend(flat(i)) else: res.append(i) return resz=[[...
2019-03-22 15:23:52 478
转载 tf.nn.embedding_lookup,tf.variable系列变量
一、tf.variable变量系列函数1. tf.Variable与tf.get_variabletensorflow提供了通过变量名称来创建或者获取一个变量的机制。通过这个机制,在不同的函数中可以直接通过变量的名字来使用变量,而不需要将变量通过参数的形式到处传递。TensorFlow中通过变量名获取变量的机制主要是通过tf.get_variable和tf.variable_scope...
2019-03-22 11:00:18 499
原创 Numpy数据二进制化
Numpy能够读写磁盘上的文本数据或二进制数据。numpy.load和numpy.save函数(推荐在不需要查看保存数据的情况下使用)将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中。例子:import numpy as npa=np.arange(5)np.save...
2019-03-21 11:15:34 7725
原创 实体识别与关系抽取
实体是知识图谱的基本单元,也是文中承载信息的重要语言,实体识别是识别出文中实体的命名性指称项。实体识别的主要难点在于(1)命名形式多变(2)命名实体的语言环境复杂。 实体识别的方法:基于规则的识别方法特点:准确率高,接近人类的思考方式,但成本昂贵规则的制定主要依赖领域专家。A,基于机器学习的识别方法-基于特征的方法代表性方法:CRF方法。为训练CRF模型,首先定义特征函数...
2019-03-20 23:55:01 5697
原创 TensorFlow函数使用总结
(1)tf.evalTF学习中,经常看到tensor.eval这样的用法。tensor.eval()的意义和sess.run()一样,t.eval()等效于sess.run(t).但是二者也有些微区别,run可以同时运行多个tensor,比如:t = tf.constant(11.0)u = tf.constant(37.0)tu = tf.mul(t, u)ut = tf.m...
2019-03-20 10:58:47 188
转载 牛顿法与拟牛顿法
优化问题:函数的一阶导函数的零点即为优化问题的解,从而这里的一阶导函数相当于上面的牛顿法中的原函数。若多元函数这里出现多元二阶导数===》引入海森矩阵===》当我们的特征特别多的时候,求海森矩阵的逆的运算量是非常大且慢的,这对于在实际应用中是不可忍受的,因此我们想能否用一个矩阵来代替海森矩阵的逆呢,这就是拟牛顿法的基本思路=》引入拟牛顿法。参考链接:1...
2018-10-21 22:55:38 168
原创 服务器远程登录工具、文件运行以Python为例
第一步:根据服务器ip地址,借助如下工具等录服务器,这里推荐方法三。 方法一:安装Xmanager Enterprise 5 (1)Xshell,然后输入服务器的域名, (2)打开Xftp,然后将要跑的程序和相关文件拖至右边。 (3)在Xshell上运行,运行步骤与在window...
2018-10-21 22:53:38 6177 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人