绝体绝命-CSDN博客

原创动手学深度学习-Task3-Task5

知识点协变量偏移标签偏移概念偏移协变量偏移在传统机器学习中，一个常见的问题的协变量偏移(Covariate Shift)。协变量是一个统计学概念，是可能影响预测结果的统计变量。在机器学习中，协变量可以看作是输入。一般的机器学习算法都要求输入在训练集和测试集上的分布是相似的。如果不满足这个假设，在训练集上学习到的模型在测试集上的表现会比较差。内部协变量偏移（Internal Covariat...

2020-02-19 16:08:29 745

原创动手学深度学习-Task1，Task2

PyTorch知识点view函数gather函数softmax公式view函数把原先tensor中的数据按照行优先的顺序排成一个一维的数组，然后按照view函数中的参数组合成其它维度的tensor。例子import torch a=torch.Tensor([[[1,2,3],[4,5,6]]])print(a.view(2,3))print(a.view(2,-1))输出：t...

2020-02-13 17:17:21 180

原创 NLP入门-Task10 BERT(一)

BERTbert实现文本分类代码解析bert实现文本分类代码解析在应用BERT模型之前，需要去github上下载开源代码，可以直接clone下来，在这里有一个run_classifier.py文件，在做文本分类项目时，需要修改这个文件，添加数据预处理类。run_classifier.py中的DataProcessor类如下所示：class DataProcessor(object): "...

2019-07-18 20:52:58 352

原创 NLP入门-Task9 Attention原理

Attention原理注意力机制注意力机制应用层级注意力模型注意力机制注意力机制(Attention Mechanism)是解决信息超载问题的一种资源分配方案，将计算资源分配给更重要的任务。注意力机制的计算可以分为两步:一是在所有输入信息上计算注意力分布，二是根据注意力分布来计算输入信息的加权平均。注意力分布采用一种“软性”的信息选择机制，首先计算在给定q和X下，选择第i个输入信息的概率α...

2019-07-15 20:51:01 565

原创 NLP入门-Task8 循环神经网络与text-rnn

循环神经网络与text-rnn循环神经网络循环神经网络介绍循环神经网络应用循环神经网络计算梯度的方式梯度爆炸和梯度消失LSTMGRUtext-rnntext-rnn分类原理循环神经网络循环神经网络介绍循环神经网络(Recurrent Neural Network，RNN)是一类具有短期记忆能力的神经网络。循环神经网络的参数学习可以通过随时间反向传播算法来学习。随时间反向传播算法即按照时间的逆...

2019-07-12 17:13:14 804

原创 NLP入门-Task7 卷积神经网络与text-cnn

卷积神经网络与text-cnn卷积神经网络卷积神经网络介绍感受野一维和二维卷积卷积的数学性质卷积层的作用池化text-cnn卷积神经网络卷积神经网络介绍卷积神经网络(Convolutional Neural Network，CNN或ConvNet)是一种具有局部连接、权重共享，汇聚等特性的深层前馈神经网络。由卷积层、汇聚层和全连接层交叉堆叠而成的，使用反向传播算法进行训练，具有一定程度上的平...

2019-07-09 20:34:36 595

原创 NLP入门-Task6 神经网络基础与fasttext

神经网络基础与fasttext神经网络激活函数前馈神经网络fasttextfasttext使用神经网络神经网络，由非线性激活函数的神经元组成，其通过大量神经元之间的连接，成为高度非线性的模型。神经元之间的连接权重就是需要学习的参数，可以通过梯度下降方法来进行学习。激活函数性质：连续并可导(允许少数点上不可导)的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数。激活函数及...

2019-07-06 18:13:06 311

原创 NLP入门-Task5 文本表示

文本表示词袋模型分布式词向量word2vec词袋模型词袋模型（Bag-of-words model）是个在自然语言处理和信息检索(IR)下被简化的表达模型。这种模型的特点是字典中的字没有特定的顺序，句子的总体结构也被舍弃了，词袋模型中的one-hot、TF-IDF和n-gram文本表示方法。词袋（Bag-of-words）是描述文档中单词出现的文本的一种表示形式。它涉及两件方面：（1）已知词...

2019-07-03 21:00:51 330

原创 NLP入门-Task4 朴素贝叶斯，SVM，LDA

2019-06-30 20:58:59 335

原创 NLP入门-Task3 特征选择

特征选择关键词关键词简介关键词抽取TF-IDF算法分析TextRank算法分析计算TF-IDF的值互信息互信息点互信息特征筛选关键词关键词简介关键词是文本里面跟这篇文档意义最相关的一些词，是最能够反映出文本主题或者意思的词语。关键词在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇，可以大大提高聚类算法的收敛速度；从某天所有的新闻中提取出这些新闻...

2019-06-27 19:08:59 475

原创 NLP入门-Task2 特征提取

特征提取分词分词概念分词算法正向最大匹配算法逆向最大匹配算法双向最大匹配法语言模型统计语言模型N-gram语言模型jieba分词分词和词频统计去停用词构造词表和向量化此部分依据【nlp】中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析教程编写分词分词概念分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文...

2019-06-24 20:09:28 350

原创 NLP入门-Task1 数据集探索

数据集探索IMDB数据集下载 IMDB 数据集功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入IMDB数据集tens...

2019-06-21 14:24:33 531

原创高级算法梳理-Task4 LightGBM框架简介

本文根据多篇博文整理总结而成.提升树是利用加法模型与前向分步算法实现学习的优化过程，它有一些高效实现，如XGBoost, pGBRT，GBDT等。其中GBDT采用负梯度作为划分的指标（信息增益），XGBoost则利用到二阶导数。它们共同的不足是计算信息增益需要扫描所有样本，从而找到最优划分点。在面对大量数据或者特征维度很高时，它们的效率和扩展性很难使人满意。微软开源的LightGBM（基于...

2019-05-20 21:59:17 403

原创高级算法梳理-Task3 XGB算法简介

本文根据多篇博文整理总结而成XGBoost（eXtreme Gradient Boosting）--极端梯度提升,XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。它是 Gradient Boosting Machine 的一个 c++ ...

2019-05-17 07:58:47 359

原创高级算法梳理-Task2前向分步算法及提升树

本文根据李航的统计学习方法和相关博文总结而成前向分步算法加法模型: 在给定训练数据及损失函数的条件下，学习加法模型成为经验风险极小化问题，即损失函数极小化问题： ...

2019-05-14 21:53:07 240

原创高级算法梳理-Task1 集成学习及随机森林算法

本文依据周志华西瓜书及多个相关博文总结而成.集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,其组成结构是:先产生一组个体学习器 individual learning 再用某种策略将他们结合起来.集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.要获得好的性能,学习器应该好而不同,学习器要有一定的准确性,不能太坏否则集成起负...

2019-05-12 20:01:06 292

绝体绝命成长之路