自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

转载 conda 安装的坑

conda虚拟环境 安装tensorflow最好用conda install 安装它会自动安装cudatoolkit 即cudann等 不与系统的cuda版本冲突转载于:https://www.cnblogs.com/rise0111/p/11576854.html...

2019-09-24 10:25:00 336

转载 matplotlib Demo

from matplotlib import pyplot as pltimport numpy as npdef plotBar(num_dict): index_list,data = zip(*num_dict) fig=plt.figure(1,figsize=(30,25)) ax1=plt.subplot(111) x_bar=...

2019-09-23 17:25:00 271

转载 pandas小demo

# 将txt文件转换成excel文件import pandas as pd import osfile_list = os.listdir('corpus')for file in file_list: file_path = 'corpus/'+file data = pd.read_csv(file_path,encoding='utf-8',header=N...

2019-09-23 17:16:00 168

转载 深度学习常见问题

忘了数据规范化What?在使用神经网络的过程中,非常重要的一点是要考虑好怎样规范化(normalize)你的数据。这一步不能马虎,不正确、仔细完成规范化的话,你的网络将会不能正常工作。因为规范化数据这个重要的步骤在深度学习圈中早已被大家熟知,所以论文中很少提到,因此常会成为初学者的阻碍。How?大体上说,规范化是指从数据中减去平均值,然后再除以标准差的操作。通常这个操作对每个...

2019-09-22 19:09:00 230

转载 正则表达式

import res1 = "python123"s2 = "python12\n"r2 = re.findall('[a-z1-9]',s1)r1 = re.findall(u'.',s1) ## . 匹配所有的字符print(r2)pattern = re.match("y.h",s1)## 判断如果一个句子中英文或数字个数如果大于两个就判定为坏句子def...

2019-09-21 17:13:00 124

转载 预处理方法

import reimport numpy as nptrain_path = 'data/train.txt'embedding_file = 'model/token_vec_300.bin'stop_words_path = 'data/stop_words.txt'temporary_variable_path = 'data/variable'embedding_f...

2019-09-21 15:54:00 398

转载 Gensim相关

from gensim.models.keyedvectors import KeyedVectorsmodel2 = KeyedVectors.load_word2vec_format('embedding1.txt', binary=False)转载于:https://www.cnblogs.com/rise0111/p/11563389.html

2019-09-21 15:53:00 90

转载 去停用词

import pandas as pdstop_words = []with open('data/stop_words.txt','r',encoding='utf-8') as f: lines = f.readlines() for i in lines: word = i.strip() stop_words.append(wo...

2019-09-21 15:44:00 2031

转载 python写入文件

读取方式覆盖写入 w追加写入 a将print()输出到txtdoc= open('path',w)print(var,file=doc)转载于:https://www.cnblogs.com/rise0111/p/11563219.html

2019-09-21 15:08:00 142

转载 alias命令

alias命令用来设置指令的别名,我们可以使用该命令可以将一些较长的命令进行简化用法alias命令的作用只局限于该次登入的操作。 alias 新的命令='原命令 -选项/参数'若要每次登入都能够使用这些命令别名,则可将相应的alias命令存放到bash的初始化文件~/.bashrc中。vim ~/.bashrcalias ner='source avtivate ner...

2019-09-21 13:55:00 104

转载 pycharm快捷键

ctrl+q 显示输入和输出参数ctrl+alt +左右箭头 跳转到上一次光标所在处转载于:https://www.cnblogs.com/rise0111/p/11551572.html

2019-09-19 18:16:00 83

转载 sklearn

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, ...

2019-09-17 21:10:00 83

转载 torch交叉熵计算

交叉熵计算函数第一种代码import torch as timport torch.nn as nn# batch_size=3,计算对应每个类别的分数(只有两个类别)score = t.randn(1, 4)# 三个样本分别属于1,0,1类,label必须是LongTensorlabel = t.Tensor([1]).long()# loss与普通的layer无...

2019-09-17 15:00:00 1668

转载 torch的LSTM输出问题

class Net(torch.nn.Module): def __init__(self): super(Net,self).__init__() self.bilstm = torch.nn.LSTM(4,10,batch_first=False,bidirectional=True) def forward(self,input):...

2019-09-17 14:45:00 673

转载 损失函数

交叉熵损失函数Cross Entropy Error Function二分类表达式其中:y——表示样本的label,正类为1,负类为0p——表示样本预测为正的概率\(y=1\)时,对应的\(p\)越大则\(-log(p)\)越小,即损失越小同理 ,\(y=0\)时,\(p\)越小,\(-log(1-p)\)越小,即损失越小eg: \(target=1\),预测\([...

2019-09-17 11:22:00 133

转载 pytorch零碎笔记

1 关于tensortensor.size(0) 返回的是第一维的大小squeeze 增加维度unsqueeze 减少维度转载于:https://www.cnblogs.com/rise0111/p/11528192.html

2019-09-16 16:48:00 78

转载 visdom 可视化工具

开启visdompython -m visdom.serverimport visdom# 新建一个连接客户端# 指定env = u'test1',默认端口为8097,host是‘localhost'vis = visdom.Visdom(env=u'test1')x = t.arange(1, 30, 0.01)y = t.sin(x)vis.line(X=x,...

2019-09-14 15:16:00 555

转载 动态规划

题目:求解一个数组中不相邻元素的最大和分析:首先从最后一个元素开始分析,如果选最后一个元素的话,就不能选倒数第二个元素,这时要考虑OPT(n)=max(OPT(n-2)+arr[n], OPT(n-1)),这个就是递归的公式,然后设计递归出口,当n=1时 上面的式子不成立,OPT(1)=max(arr[0],arr[1]),当n=2时,OPT[2] = max(arr[0],arr[1...

2019-09-14 10:54:00 75

转载 torch训练

torch的forward函数不一定非要调用torch的loss可以自己定义在模型中,不一定要通过torch的接口定义3.反向传播不需要一定使用forward(),而且不需要定义loss=nn.MSError()等,直接score1 - score2 ,就可以反向传播了。无论两个矩阵你咋操作,只要满足,不管你是只取一行,还是几行,加减乘数。只要能够满足这个式子,就能够反向传播,...

2019-09-12 14:37:00 207

转载 keras label 独热化

from keras.utils import to_categorical train_y = to_categorical(train_y)>>(134132,80)>>(123213,80,9)转载于:https://www.cnblogs.com/rise0111/p/11492238.html

2019-09-09 16:01:00 539

转载 动态规划

大多数动态规划问题都能被归类成两种类型:优化问题组合问题动态规划是自底向上,递归树是自顶向下为什么动态规划一般都脱离了递归,而是由循环迭代完成计算。动态规划概念啥叫「自顶向下」?注意我们刚才画的递归树(或者说图),是从上向下延伸,都是从一个规模较大的原问题比如说 f(20),向下逐渐分解规模,直到 f(1) 和 f(2) 触底,然后逐层返回答案,这就叫「自顶向下」啥叫「...

2019-09-06 10:27:00 96

转载 python 常见错误

python2的代码在python3上运行常见错误字符串AttributeError: 'str' object has no attribute 'decode' 报错只需删除decode代码 因为python3上的代码默认就是utf-8编码的明明文件就在那里却报错找不到这时可以通过打印代码的执行路径看下当前代码与文件是否在一个路径建议使用相对路径 并且使用python命令...

2019-09-05 17:00:00 86

转载 问答机器人

策略相似度阅读理解转载于:https://www.cnblogs.com/rise0111/p/11464719.html

2019-09-05 11:20:00 129

转载 路径

windows下使用r“绝对路径”获取当前路径cur_path = os.path.abspath('.')拼接路径check_path = os.path.join(cur_path, 'ipynb_checkpoints')vscode下找不到文件解决方法打开方式不对!!!一定要从根目录打开文件!!!转载于:https://www.cnblogs.co...

2019-09-05 09:51:00 110

转载 遍历文件夹与文件

glob --用于匹配某种类型文件import globfor name in glob.glob('dir/file?.txt'): print (name)os.walk()import os# topdown 优先遍历根目录for root, dirs, files in os.walk(r"C:\Users\sx_qiaoweitao\Documents...

2019-09-05 09:36:00 83

转载 HMM&CRF

1. HMM模型是对转移概率和表现概率直接建模,统计共现概率。2. MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率,但MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。3. CRF模型中,统计了全局概率,同时在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置(label bias)的问题。1.HMM ,...

2019-09-04 11:29:00 130

转载 遍历字典

遍历字典key值a = {'a': '1', 'b': '2', 'c': '3'}for i in a.keys(): print(i)## y与下面代码等价for i in a: print(i)遍历字典value值a = {'a': '1', 'b': '2', 'c': '3'}for value in a.values(): print(...

2019-09-02 16:40:00 244

转载 等待填坑

bert蒸馏模型压缩转载于:https://www.cnblogs.com/rise0111/p/11445198.html

2019-09-02 10:39:00 76

转载 git操作

辅导费转载于:https://www.cnblogs.com/rise0111/p/11444945.html

2019-09-02 09:56:00 66

转载 深入理解wmd算法

深入理解wmd算法WMD(Word Mover’s Distance)1是2015年提出的一种衡量文本相似度的方法。它具有以下几个优点:效果出色:充分利用了word2vec的领域迁移能力无监督:不依赖标注数据,没有冷启动问题模型简单:仅需要词向量的结果作为输入,没有任何超参数可解释性:将问题转化成线性规划,有全局最优解灵活性:可以人为干预词的重要性当然它也有一些缺点:...

2019-08-31 20:39:00 1038

转载 过滤warnings

import warningswarnings.filterwarnings("ignore")转载于:https://www.cnblogs.com/rise0111/p/11439762.html

2019-08-31 17:21:00 267

转载 三个世界理论

世界一:由物理客体和事件组成的世界,包括生物的存在世界二:由心灵主体和其感知事件组成的世界。个人认为指的是内心世界世界三:客观知识组成的世界,比如概念,故事,各种文学著作,是由世界一和世界二交互而来的转载于:https://www.cnblogs.com/rise0111/p/11434210.html...

2019-08-30 11:45:00 342

转载 评价指标

皮尔逊相关系数\[r=\frac{\operatorname{Cov}\left(\operatorname{sim}_{o u t}, \operatorname{sim}_{\text {label}}\right)}{\sqrt{\operatorname{Var}\left(\operatorname{sim}_{\text {out}}\right) \operatorn...

2019-08-29 18:23:00 147

转载 强化学习简介

不理解环境(Model-Free RL)Q LearningSarsaPolicy Gradients理解环境基于概率基于价值转载于:https://www.cnblogs.com/rise0111/p/11425941.html

2019-08-28 19:15:00 87

转载 提取中文英文和数字

def change_text(path): with open(path,'r',encoding='utf-8') as f_read: raw_text = f_read.read() ## 删除空格和换行 raw_text = re.sub(u'([\r\n ])','',raw_text) ## 提取中文数...

2019-08-27 17:23:00 368

转载 fastText

挖坑转载于:https://www.cnblogs.com/rise0111/p/11419371.html

2019-08-27 16:56:00 91

转载 正则表达式应用

提取句子中中英文数字u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])"\u4e00-\u9fa5汉字的unicode范围\u0030-\u0039数字的unicode范围\u0041-\u005a大写字母unicode范围\u0061-\u007a小写字母unicode范围...

2019-08-27 16:44:00 145

转载 win7 安装ss

需要安装一个.NET Framework 4.6.2链接转载于:https://www.cnblogs.com/rise0111/p/11411453.html

2019-08-26 11:19:00 1090

转载 常用相似度语料

英文语料MPRC二分类 0101训练集4700条 测试机1700条中文语料微众银行 共10000条数据转载于:https://www.cnblogs.com/rise0111/p/11409928.html

2019-08-25 23:19:00 899

转载 比较句子相似度方法

词嵌入在NLP领域已经很流行了,它可以让我们很简单地计算两个单词的相似度,或者去找到一个目标词最相似的词,然而,我们对两个长的句子或短文本相似度更感兴趣。在这篇博客中,我们比较最流行的方法计算句子相似度,研究他们的表现.代码链接很多NLP应用需要计算短文本在语义层面的相似度。比如搜索引擎,需要对文档的关联性建模去查找,而不是根据句子的重叠单词。问答网站,比如quora,需要去决定一 个...

2019-08-23 20:27:00 3019

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除