- 博客(86)
- 资源 (1)
- 收藏
- 关注
原创 rasa 中文 UnsupportedLanguageError: component ‘LanguageModelTokenizer‘ does not support language ‘zh‘.
LanguageModelTokenizer组件已被弃用,部分原因是它无法处理非空白标记化的语言,如中文。可以使用JiebaTokenizer代替。# Configuration for Rasa NLU.# https://rasa.com/docs/rasa/nlu/components/language: zhpipeline:# # No configuration for the NLU pipeline was provided. The following default pi
2021-05-21 15:54:30 1528 2
原创 pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line xxx
import pandas as pddata = pd.read_csv('data.txt', sep='\t')报错:pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line xxx改为:import pandas as pdimport csvdata = pd.read_csv('data.txt', sep='\t', error_bad_l.
2021-03-16 10:22:11 839
原创 AttributeError: ‘_IncompatibleKeys‘ object has no attribute ‘cuda‘
完整报错信息如下:Traceback (most recent call last): File "bert.py", line 172, in <module> output = predict('../../../data/end2end/title_content5.csv', model_path='../../../data/end2end/bert.pth') File "bert.py", line 149, in predict model = mo
2021-03-05 11:07:27 2069 4
原创 pytorch 存取模型(待补充)
# 直接保存模型# 保存模型torch.save(model, 'model.pth')# 加载模型model = torch.load('model.pth')# 保存模型参数和结构# 保存模型参数torch.save(model.state_dict(), 'model.pth')# 加载模型参数model.load_state_dict(torch.load('model.pth')# cpu模型加载gpu模型参数model.load_state_dict(torch.load
2021-02-25 10:01:47 314
原创 AttributeError: ‘torch.return_types.max‘ object has no attribute ‘dim‘
out1 = torch.max(out1, 1) # (batch, embedding_size)out1 = self.linear(out1) # (batch, linear_hidden_size)抛出错误 File "/diske/Anaconda3/envs/pytorch1.4/lib/python3.7/site-packages/torch/nn/modules/module.py", line 722, in _call_impl result = self..
2021-01-22 10:30:28 5177
原创 Macbook安装brew
/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"亲测可用
2021-01-12 20:04:36 271
原创 SyntaxError: Non-ASCII character ‘\xe4‘ in file baseline.py on line 18, but no encoding declared;
出现错误:SyntaxError: Non-ASCII character '\xe4' in file baseline.py on line 18, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details解决办法:在文件开头加入 #-*-coding:utf-8 -*-# 出现错误File "baseline.py", line 18SyntaxError: Non-ASCII c
2021-01-07 10:34:34 252
原创 ValueError: expected sequence of length 791 at dim 1 (got 185)
File "baseline.py", line 25, in <module> input_id = torch.tensor(tokens2ids)ValueError: expected sequence of length 791 at dim 1 (got 185)list维度不一样,检查一下维度应该是input_id = torch.tensor(padded_ids)
2021-01-06 19:58:56 3998
原创 pytorch LSTM的股价预测
股价预测一直以来都是幻想能够被解决的问题,本文中主要使用了lstm模型去对股价做一个大致的预测,数据来源是tushare,非常感谢tushare的数据!!为什么要用LSTM?LSTM是一种序列模型,是RNN中最典型的一个网络结构,对RNN做了一些改进同时具有RNN的特性,可以更好的处理时序数据。如果可以实现对股价的预测,作为一个股民,可以更好的掌握买卖点,以及辅助自己做决策等等,以此提高自己的收益率。你可以合理地决定什么时候买股票,什么时候卖股票来获利。这就是时间序列建模的用武之地。你需要一个好
2021-01-04 11:40:49 16818 22
原创 有的时候print函数不会立即打印的解决办法(flush=True)
最近在跑模型,数据文件太大读取时间很长,于是就是print一个标志,但是发现print不会立刻输出,总是在文件都加载完才输出,那我要你何用。。。在网上查了一下,说是print会先输出到缓冲区,所以print不能立刻打印出来,写了这么久python我也是刚知道还有这个东西,,,需要刷新一下缓冲区就可以了,python3提供了这个参数print(xxx, flush=True)加上之后就好了...
2020-12-08 10:51:52 1233
原创 linux 查看文件开头几行、末尾几行、中间几行
查看整个文件cat [filename]例如:查看/home/user/test.txtcat /home/user/test.txt查看开头几行head -n [rows] [filename]例如:查看/home/user/test.txt的前20行head -n 20 /home/user/test.txt查看末尾几行tail -n [rows] [filename]例如:查看/home/user/test.txt的最后10行tail -n 10
2020-10-28 16:37:02 16979 3
原创 深度学习中的batch,iteration,epoch复习总结
这三个概念是在深度学习的优化中提到的,也就是BP。batch的概念就是一次训练所用到的数据,当batchsize=1,就类似于梯度下降中的SGD,称为online learning;当batchsize小于整体训练集的数量时成为mini-batch learning;当batchsize等于整体训练集的数量时,称为batch learning。online learning的优点是下降很快,缺点是很难在最优点处收敛,通常会在接近最优点处来回震荡。batch learning的缺点是下降太慢。mini-b
2020-10-27 20:36:35 592
原创 Python读取文件时出现UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position ...
with open(self.path, 'r') as test: for line in test: pass代码如上,出现错误:UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position ...UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 9: ...或者是UnicodeDecodeErr..
2020-10-17 09:38:49 64440 14
原创 自然语言处理中的Attention机制
Attention机制的理解Attention机制也就是注意力机制,在自然语言处理中,就是对于一个语言序列的不同的部分给予不同的注意力,在数学上一般表现为权重,也就是对一个语言序列的各个元素加权。对Attention机制给一个通用的定义:给定一组向量集合values,以及一个向量query,attention机制是一种根据该query计算values的加权求和的机制。这个定义来源于cs224n。所谓attention就是这个value集和中的每个向量的权值的大小,attention机制就是用一种
2020-10-15 22:15:24 661
原创 CNN卷积神经网络总结
1 DNN和CNNDNN(Deep Neural Networks,深度神经网络)DNN是一个全连接的深度神经网络,也可以用作图像识别,在mnist上的表现也很不错,可以参考这篇文章。鉴于为了介绍CNN和DNN的区别,在这篇文章中都叫做全连接神经网络。全连接神经网络中,每相邻的两层网络之间的节点都是相互有边相连。上一层的每个神经元均要链接下一层的每个神经元,于是一般将每一层的神经元排成一排,如图所示:而对于卷积神经网络,相邻的两个网络层之间只有部分节点相连,为了方便展示神经元的维度,一般会展
2020-09-23 15:45:47 6616
原创 Grid Search 网格搜索 介绍
什么是Grid Search 网格搜索?网格搜素是一种常用的调参手段,是一种穷举方法。给定一系列超参,然后再所有超参组合中穷举遍历,从所有组合中选出最优的一组超参数,其实就是暴力方法在全部解中找最优解。为什么叫网格搜索,因为假设有两个超参,每个超参都有一组候选参数。这两组候选参数可以两两组合,把所有组合列出来就是一个二维的网格(多个超参两两组合可以看作是岗高维空间的网格),遍历网格中的所有节点,选出最优解。所以叫网格搜索。...
2020-09-16 10:03:52 5952
原创 安装nodejs出现Invalid drive: f:\的解决办法
我电脑装了linux双系统,大概是这个原因造成的解决办法:win+r, 输入subst F: %TEMP%然后win+r,输入 subst F:/F自己是哪个盘就写哪个盘然后重新执行node安装程序就可以了
2020-09-02 23:50:33 2433
原创 反向传播算法(backpropagation)
算法简介百度百科:BP算法(即反向传播算法)适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系:一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射,这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合,因此具有很强的函数复现能力。这是BP算法得以应用的基础。...
2020-09-02 23:21:54 14304
原创 Bagging与Boosting的区别与联系
1 Bagging与Boosting的区别与联系Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。1.1 Bagging介绍用抽样的方式从原始样本中进行有放回的多次抽样(或者是抽特征),这种方法叫做Bootstraping,抽取k次每次抽取n个样本,这样就生成了k个样本容量为n的数据集。原始数据集中的样本可能是多次被抽到也可能是没有被抽到。 每次使用一个数据即选练得到一个模型,这样k个数据集就可以得到k个模
2020-08-30 21:55:09 26223 3
原创 决策树:ID3和C4.5
1 决策树简介决策树是一种分类算法,是通过对数据的处理,利用归纳算法,生成一些列规则,类似于if-else,然后根据这些规则对新的数据做决策。本质上就是学习规则,在利用规则做分类的过程。具体来说,就是首先根据数据的特征,决定每个树的节点使用哪一个特征做为分类依据,以及使用这个特征的哪个指作为分类界限,这就是一棵树的构造过程。决策树的优点:推理过程容易理解,决策过程可以表示成if-else 推理过程完全依赖于属性变量的取值特点 可自动忽略目标变量没有贡献 的属性变量,也为判断属性变量的重要性、
2020-08-30 14:54:28 794
原创 word2vec(一)——skip-gram原理理解
1 什么是word2vecword2vec顾名思义,就是将词(word)映射到(to)实向量(vector),用一一实数向量表示一个词,也被叫做词嵌入(word embedding),也可以认为词向量是词的特征向量。通过这种词嵌入的方式可以将词语映射为可以计算的数学形式,使计算机对自然的语言的计算变得更加可行,同时也赋予了它一定的数学性质,例如可以用向量的相似度来表示两个词的相似度等等。word2vec可以参考这篇文章中有提到https://blog.csdn.net/qq_31267769/artic
2020-08-28 23:47:57 6052 3
原创 Tf-idf推导及理解
1 什么是Tf-idf?TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。百度百科:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。顾名思义,Tf-idf由tf和idf两部分组成,tf是指一个词在当前document里面出现的频率,
2020-08-25 23:09:33 707
原创 softmax与sigmoid函数的理解
1 sigmoid1.1 sigmoid的简单推理在使用逻辑回归做二分类问题时,sigmoid函数常用作逻辑回顾的假设函数,从直觉上理解很好理解,就是在线性回归的基础上套一个sigmoid函数,将线性回归的结果,映射到范围内,使他变为一个二分类问题。但是在sigmoid背后有一套严谨的数学推导,包括sigmoid函数时怎么推导出来的,为什么使用丝sigmoid函数。逻辑回归和线性回归同属一个广义线性模型,顾名思义,这些模型有相似之处,实在同一套约束下设计出来的。例如解决一个二分类问题,首先假设这
2020-08-24 23:39:27 3968
原创 对语言模型(Language Model)与n-gram的理解
1 语言模型(Language Model)的定义定义:语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。 数学角度理解:语言模型就是对于一个语素序列,计算出这个语素序列的概率,即:(语素指语言中最小的音义结合体,一般来说就是独立的词)简单来说就是通过一些数学手段,计算出对于一个句子的概率大小,概率大这句话就是争取的,概率小这句话就是错误的。例如:,这里是存在语序的。语言模型主要...
2020-08-24 01:15:08 1598
原创 奇异值分解SVD与在降维中的应用
1. 特征值分解1.1 特征值与特征向量特征值与特征向量定义如下:是一个实对称矩阵,是一个维向量,则是矩阵的一个特征值,而是矩阵的特征值所对应的特征向量。如果这些特征向量是线性无关的,即任意一个特征向量都不能被其他的向量的线性组合所表述出来,那么矩阵就可以特征分解,用以下式子表示:其中是这n个特征向量做组成的维矩阵,而是以特征向量对应的特征值为对角线的维三角阵。将中的特征向量单位化,使得,即,故特征值分解也可以表达为:征值分解,对矩阵有着较高的要求,它需要被分解的矩阵为实对称
2020-08-19 16:39:15 639
原创 CS224N Assignment 1: Exploring Word Vectors part 1
Welcome to CS224n!Before you start, make sure you read the README.txt in the same directory as this notebook.# All Import Statements Defined Here# Note: Do not add to this list.# All the dependencies you need, can be installed by running .# -----.
2020-08-18 14:43:26 1321
原创 CS224n--Lecture 1 Introduction and Word Vectors
1如何表示词的意思(Meaning of a word)meaning的定义是,一个词或短语表达出的主意,或是一个人想要用词语或符号表达的意思,或者是一个艺术作品或著作表达的意思。通常来讲,用一种语言学的方式去理解meaning,就是指定某个符号(字也可以看做是一种广义的符号)所指某个意思或者事物,也就是指称语义。在计算机科学中,指称语义是通过构造表达其语义的(叫做指称(denotation)或意义的)数学对象来形式化计算机系统的语义的一种方法。2 如何获得在计算机中可用的语义Wordnet是.
2020-08-16 21:48:47 652
原创 NLP先验知识(一)
NLP基础任务1. 分词最大匹配分词法:长度优先1. 前向最大匹配(forward-max matching)2. 后向最大匹配(backward-max matching)这种算法有几个缺点:1. 词典中没有(OOV,out of vocabulary)2. 分词出现歧义 例如:武汉市长江大桥,会把市长和长江大桥同时分出来,产生歧义现在有很多现成的模型以及第三方包几乎可以解决这些问题:1. jieba2. LTP3. hanNLP4. snowNLP..
2020-08-16 10:12:17 1481
原创 SVM笔记(二)拉格朗日对偶、KTT条件、软间隔SVM
上一篇:SVM笔记(一)上一篇写到讲硬间隔的SVM转化为凸二次规划问题,也就是QP问题,之后可以是用现成的软件求解QP问题。但是如果样本数量大和维度比较高,会导致问题求解困难或不可解,因此引入了拉格朗日乘子来脱掉原问题的约束条件,然后根据原问题和对偶问题是强对偶关系,二者完全等价,因此转换为它得对偶问题后求导求最小值,最后引入KTT条件求解。拉格朗日对偶首先对问题引入拉格朗日函数,如下:原问题就等价于:原问题是一个凸二次规划问题,和它的对偶问题满足强对偶关系,即原问题等价于对偶.
2020-08-14 18:00:45 920
原创 SVM笔记(一)硬间隔SVM
什么是SVM?SVM是一种二分类算法,其中SVM三个重要的部分是间隔、对偶、核技巧。SVM的基本模型是定义在原始特征空间上基于最大间隔的线性分类器,Kernal的引入使得SVM变成了非线性分类器。SVM的学习策略就是最大化间隔,后面跟会提到两种间隔:functional margin和geometric margin。可将这个学习问题转换为一个解凸二次规划的问题,SVM就变成了一个解凸二次规划问题的最优化算法。kernal思想同样可以用在其他机器学习算法中。
2020-08-12 23:52:32 2522
原创 pytorch中的squeeze和unsqueeze对比
unsqueeze()unsqueeze是将Tensor在某一维上增加一个维度x = torch.randn(2,3)print(x.shape)x.unsqueeze_(0)print(x.shape)------------------torch.Size([2, 3])torch.Size([1, 2, 3])索引从0开始,也可以在其他维度上增加x = torch.randn(2,3)print(x.shape)x.unsqueeze_(1)print(x.sha
2020-08-10 11:39:11 630
原创 torch.rand() 和 torch.randn() 有什么区别?
torch.randn(*sizes, out=None)randn是随机生成服从正态分布的数据,返回值为张量。参数:sizes (int...) - 整数序列,定义了输出张量的形状 out (Tensor, optinal) - 结果张量torch.rand(*sizes, out=None)rand是随机生成服从均匀分布的数据,返回值为张量。参数:sizes (int...) - 整数序列,定义了输出张量的形状 out (Tensor, optinal) - 结果张量两者
2020-08-08 16:53:10 6930
原创 概率生成模型-朴素贝叶斯(Naive Bayes)
1 前置概念先验概率:在不知道事务特征的情况下,根据以往的经验,判断出这件事发生的概率,这个概率就是先验概率,即: 后验概率:与先验概率相对应,是知道了事务特征判断出来的从而得出的事件发生的概率就是后验概率,即: 联合概率:两件事同时发生的改率,比如A发生且B发生,可以写作: 贝叶斯定理:贝叶斯定理起初是为了解决逆概率的问题,通过现象倒推本质,比如,如果在一个黑箱里摸球,箱中有3个红球7个黑球,可以轻易得出摸出红球的概率是0.3,现在假设不知道盒中有多少个黑球多少个红球,通过不断的摸球,不断的计算
2020-08-06 23:25:01 3774 1
原创 协同过滤算法
1.1 协同过滤协同过滤就是协同别人的feedback,对信息进行过滤,从而选出某个用户可能感兴趣的信息。比如,某宝、某东的推荐页面,就是通过协同跟你自己相似用户的购买信息、评价和反馈,然后从所用商品中过滤出你可能感兴趣的东西推荐给你,简化的大致描述就是这样,可能会有出入,具体的详细算法流程后面会说。推荐过程一共分为几个步骤:获取所有物品的用户反馈,包括点赞、评价等等。 以上数据存储为矩阵形式,用户为行坐标,物品为列坐标,例如只统计点赞的数据,将点赞设为1,点踩设为-1,没有点赞或者点踩的设为
2020-08-05 00:21:21 1506
原创 解决git克隆项目出现fatal无法访问‘https://github.com/xxx/xxx‘Unsupported proxy syntax in‘127.0.0.1:8118‘
当使用git clone时出现如下问题首先查看git的配置列表git config --list如下图 :可以看到有两个代理配置,http.proxy和https.proxy,就是这两个配置的原因删除这两项git config --global --unset http.proxygit config --global --unset https.proxy可以看到git可以正常clone项目了...
2020-06-29 11:44:22 56214 14
原创 正则化、岭回归与LASSO回归(套索回归)
首先补充一些铺垫知识无偏估计百度百科:无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。简单来说,就是对总体样本进行多次采样,求出每次采样的样本均值,根据中心极限定理,这些多次取样的样本均值应该是服从正态分布的,求出这个分布的期望,这个期望等于总体样本的期望,那么这个估计就具有无偏性,就是一种无偏估计,这恰恰是构建回归算法(可以看这篇)的假设函数的基本思想。首先确定
2020-06-07 23:59:51 2322
原创 过拟合的原因以及如何解决
如何判断过拟合?简单来说就是当模型在训练集上的表现效果非常好,并且远好于在测试集上的表现效果,那基本就是过拟合了。如果在训练集上表现都不好,很可能是欠拟合,,,过拟合的原因?1. 数据特征过多,而数据量不足。对于回归类的算法而言,特征越多意味着参数数量越多,模型也就越复杂,而相比之下如果数据量不足会导致过拟合,也就是模型复杂度与数据量不匹配。2. 训练集和测试集的数据特征、分布不够相似,这一点根本原因也是训练集过小,在总体样本中,训练集和测试集只占很小一部分,这就导致很难保证训练集和测试集与
2020-06-07 10:42:30 4877
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人