2021年02月_u013250861

原创 NLP-生成模型-2016：Seq2Seq+Attention+Coverage 【覆盖机制：解决编码端信息(词)的过使用/欠使用问题（Attention机制不能清楚地知道哪些信息被用过或没被用过）】

自然语言处理(NLP)

2021-02-28 22:19:23 1234 1

原创 NLP-分类模型-2016-文本分类：FastText【使用CBOW的模型结构；作用：①文本分类、②训练词向量、③词向量模型迁移（直接拿FastText官方已训练好的词向量来使用）】【基于子词训练】

作为NLP工程领域常用的工具包, fasttext有两大作用:- 进行文本分类- 训练词向量fasttext工具包的优势：正如它的名字, 在保持较高精度的情况下, 快速的进行训练和预测是fasttext的最大优势.fasttext优势的原因:- fasttext工具包中内含的fasttext模型具有十分简单的网络结构.- 使用fasttext模型训练词向量时使用层次softmax结构, 来提升超多类别下的模型性能.- 由于fasttext模型过于简单无法捕捉词序特征, 因此会进行n-gra

2021-02-28 22:18:53 2185

原创 VMware15.5下安装CentOS7.5的步骤

环境：Vmware 15centos 7.5（CentOS-7.5-x86_64-DVD-1804.iso）一、安装centos 7.51.选择创建新的虚拟机2.选择典型配置类型3.选择稍后安装操作系统4.选择系统版本5.自定义虚拟机名称和位置6. 选择给系统分配的储存，暂时选择60g够用。7. 选择自定义硬件关闭后点击完成7.选择第一个Install CentOS 7（上下左右选择，白色为选定）选择语言要求效率就安第一个最小安装即无桌面，这里我选

2021-02-28 22:18:22 3261

原创 Linux常用命令

Linux常用命令

2021-02-28 22:17:44 131

原创 Linux常见问题解决方案

Linux常见问题解决方案

2021-02-28 22:17:08 624

原创 Windows下安装NLP相关软件【NoSql图形数据库neo4j】

Windows下安装各种软件【NoSql图形数据库neo4j】

2021-02-28 22:16:01 266

原创 Python-Web后端框架：Flask

Flask框架是当下最受欢迎的python轻量级框架, 也是pytorch官网指定的部署框架. Flask的基本模式为在程序里将一个视图函数分配给一个URL，每当用户访问这个URL时，系统就会执行给该URL分配好的视图函数，获取函数的返回值，其工作过程见图.在项目中, Flask框架是主逻辑服务和句子相关模型服务使用的服务框架.安装:# 使用pip安装Flaskpip install Flask==2.1.2基本使用方法:# 导入Flask类from flask import Flask.

2021-02-28 22:15:18 625

原创 Python-Web服务器：uwsgi

uWSGI是一个Web服务器，它实现了WSGI协议、uwsgi、http等协议。Nginx中HttpUwsgiModule的作用是与uWSGI服务器进行交换。要注意 WSGI / uwsgi / uWSGI 这三个概念的区分。- WSGI是一种通信协议。- uwsgi是一种线路协议而不是通信协议，在此常用于在uWSGI服务器与其他网络服务器的数据通信。- 而uWSGI是实现了uwsgi和WSGI两种协议的Web服务器。uwsgi协议是一个uWSGI服务器自有的协议，它用于定义传输信息的类型（t

2021-02-28 22:14:35 196

原创 NLP-应用场景-文本分类：基于fastText模型的文本多标签分类【中文标签化系统：给一段中文文本打上一个或多个合适的标签】【tf-serving部署模型】【评价指标：准确率、召回率、F1】

人工智能-自然语言处理(NLP)-应用场景：智能文本分类系统

2021-02-28 22:13:43 1992 1

原创算法-五大常用算法：分治算法（Divide-and-Conquer）

分治法，字面意思是“分而治之”，就是把一个复杂的1问题分成两个或多个相同或相似的子问题，再把子问题分成更小的子问题直到最后子问题可以简单地直接求解，原问题的解即子问题的解的合并，这个思想是很多高效算法的基础，例如排序算法(快速排序，归并排序)，傅里叶变换(快速傅里叶变换)等。分治法的基本思想：将一个难以直接解决的大问题，分割成一些规模较小的相同问题，以便各个击破，分而治之。分治策略：对于一个规模为n的问题，若该问题可以容易的解决(比如规模n较小)则直接解决，否则将其分解为k个规模较小的子问题，这些子问题互相

2021-02-28 22:08:46 998

原创 Python-Web后端框架：Django

Python-Web后端框架：Django

2021-02-27 22:15:52 241

原创算法-五大常用算法：回溯算法

数据结构与算法-五大常用算法：回溯算法

2021-02-27 22:15:16 153

原创算法-五大常用算法：分支限界算法

分支限界算法：类似于回溯法，也是一种在问题的解空间树T上搜索问题解的算法。但在一般情况下，分支限界法与回溯法的求解目标不同。回溯法的求解目标是找出解空间树中满足约束条件的所有解，而分支限界法的求解目标则是满足约束条件的一个解，或是从满足约束条件的解中找出使某一目标函数值达到极大或极小的解，即在某种意义下的最优解。分支限界法的基本思想是对有约束条件的最优化问题的所有可行解（数目有限）空间进行搜索。该算法在具体执行时，把全部可行的解空间不断分割为越来越小的自己（成为分支），并为每个自己内的解的值计算一个下界或上

2021-02-27 22:14:31 170

原创 NLU-预训练模型-2018：Bert（一）【“Masked LM”缺点：①预训练与微调不一致；②忽略了掩码位置间的依赖关系】【复杂度：O(n^2·d)；n：输入序列长度（规定最长512）】

BERT是2018年10月由Google AI研究院提出的一种预训练模型.- BERT的全称是：**B**idirectional **E**ncoder **R**epresentations from **T**ransformers；- BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类, 并且在11种不同NLP测试中创出SOTA表现. 包括将GLUE基准推高至80.4% (绝对改进7.6%), MultiNLI准确度达到86.7% (绝对改进5

2021-02-27 22:13:21 1381

原创 NLP-预训练模型-2019-NLU：XLNet【在Transformer-XL的基础上：①“排列组合LM”取代Bert中的“掩码LM”解决其弊端；②使用“双流注意力机制”解决位置信息】

深度学习-自然语言处理(NLP)-预训练模型：XLNet

2021-02-27 22:12:51 1408

原创自然语言处理(NLP)-子词模型（Subword Models）：BPE（Byte Pair Encoding）、WordPiece、ULM（Unigram Language Model）

NLP三大Subword模型详解：BPE、WordPiece、ULM

2021-02-27 22:12:20 996

原创自然语言处理-应用场景-文本生成：Seq2Seq --＞文本识别(OCR)【图片--＞图片中的文本】

人工智能-自然语言处理(NLP)-应用场景：文本识别

2021-02-27 22:11:15 475

原创 Pytorch框架教程

深度学习：Pytorch教程

2021-02-27 22:10:37 462

原创 NLP-2015：Luong NMT模型【Attention类型：Global Attention、Local Attention（实践中很少用）】

自然语言处理(NLP)

2021-02-23 21:56:42 689

原创 NLP-预训练模型-2019-NLU：RoBERTa【优化版Bert】【丢掉NSP任务；Mask改为动态；放大数据集】

自然语言处理(NLP)

2021-02-23 21:56:01 796

原创深度学习-TensorFlow2：TensorFlow2 创建CNN神经网络模型【ResNet模型】

自定义ResNet神经网络-Tensorflow【cifar100分类数据集】import osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # 放在 import tensorflow as tf 之前才有效import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layers, optimizers, datasets, Sequential#===

2021-02-20 21:33:19 434

原创深度学习-Pytorch：Pytorch 创建CNN神经网络模型【ResNet模型】

一、自定义ResNet神经网络-Pytorch【cifar10图片分类数据集】import torchfrom torch.utils.data import DataLoaderfrom torchvision import datasetsfrom torchvision import transformsfrom torch import nn, optimfrom torch.nn import functional as F# 两层的残差学习单元 BasicBlock [(3×3

2021-02-20 21:30:11 848

原创 Scala：Scala基础语法【Scala语言是一个完全面向对象编程语言--＞万物皆对象；Scala语言是一个完全函数式编程语言--＞万物皆函数】

Scala：基础语法【Scala语言是一个完全面向对象编程语言--＞万物皆对象；Scala语言是一个完全函数式编程语言--＞万物皆函数】# 一、变量和数据类型## 1、变量说明：在Scala中声明一个变量时，可以不指定类型，编译器根据值确定```scalavar | val 变量名 [: 变量类型] = 变量值```1. 声明变量时，类型可以省略（编译器自动推导，即类型推导）2. 类型确定后，就不能修改，说明Scala是强数据类型语言。3. 变量声明时，需要初始值

2021-02-06 23:58:02 798

原创大数据-数据存储：HDFS、MongoDB、HBase的区别和使用场景

# 一、HDFSHDFS::适合大文件存储，可append，但不可修改。适合Hadoop离线数据分析，Apache Spark的数据存储。- HDFS对大量小文件的存储开销比较大，适合大文件处理，如果有多个小文件，可以合并为大文件再处理- HDFS适用于高吞吐量，而不适合低时间延迟的访问- HDFS适用于流式读取的方式，不适合多用户写入一个文件、随机写以及文件的覆盖操作- HDFS更加适合写入一次，读取多次的应用场景 HDFS适用场景- GB、TB、甚至PB级数据- 百万规模以上的文件

2021-02-06 23:57:31 2340 1

原创算法：倒排表/倒排索引（Inverted index）

搜索引擎最核心的技术，倒排索引技术，倒排索引可能需要分成几篇文章才说得完，我们先会说说倒排索引的技术原理，然后会讲讲怎么用一些数据结构和算法来实现一个倒排索引，然后会说一个索引器怎么通过文档来生成一个倒排索引。什么是倒排索引呢？索引我们都知道，就是为了能更快的找到文档的数据结构，比如给文档编个号，那么通过这个号就可以很快的找到某一篇文档，而倒排索引不是根据文档编号，而是通过文档中的某些个词而找到文档的索引结构。倒排索引技术简单，高效，简直是为搜索引擎这种东西量身定做的，就是靠这个技术，实现一个搜索引擎

2021-02-06 23:56:41 3313 1

原创 NLP-文本处理：拼写纠错【非词（编辑距离）、真词（编辑距离...）候选词 -＞ “噪音通道模型”计算候选词错拼成待纠错词的似然概率 -＞ N-gram模型评估候选词组成的语句合理性】

一、贝叶斯公式1、单事件P(Ax∣B)P(A_x|B)P(Ax∣B)=P(AxB)P(B)=P(B∣Ax)×P(Ax)P(B)=P(B∣Ax)×P(Ax)∑i=0n[P(B∣Ai)∗P(Ai)]=\frac{P(A_xB)}{P(B)}=\frac{P(B|A_x)×P(A_x)}{P(B)}=\frac{P(B|A_x)×P(A_x)}{\sum_{i=0}^n[P(B|A_i)*P(A_i)]}=P(B)P(AxB)=P(B)P(B∣Ax)×P(Ax)=∑i=0n[P(B∣Ai).

2021-02-06 23:56:02 6005 2

原创自然语言处理(NLP)-语言模型【用来判断一句话语法上是否通顺】：N-gram语言模型（基于语料库的统计结果）--＞ N-gram神经网络语言模型【语言模型的评估（①：PPL困惑度；②：BPC）】

人工智能-自然语言处理(NLP)：Language Model（语言模型）

2021-02-06 23:55:27 6551

原创 NLP-文本处理：基本技术【命名实体识别、分词、拼写纠错、停用词、词性标注】、文本序列化、文本向量化、文本语料的数据分析、文本特征处理（Ngram特征添加、文本长度规范）、数据增强

文本预处理及其作用：文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.# 一、文本处理的基本方法## 1、分词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过

2021-02-06 23:54:47 2556 1

原创大数据-数据仓库：快照表、拉链表，全量表，增量表

大数据-数据仓库：全量表，增量表，拉链表，流水表，快照表

2021-02-06 23:54:04 3697

原创 NLP-预训练模型-2019-NLU：TinyBert【轻量级Bert】【采用知识蒸馏的方法来压缩Bert模型】

《原始论文：TinyBERT: Distilling BERT for Natural Language Understanding》GitHub：https://github.com/brightmart/albert_zh参考资料：华为刘群团队构造两阶段知识蒸馏模型TinyBERT，模型压缩7.5倍，推理时间快9.4倍加速 BERT 模型有多少种方法？从架构优化、模型压缩到模型蒸馏最新进展详解！NLP中的预训练语言模型（四）—— 小型化bert（DistillBert, ALBERT, TIN

2021-02-06 23:53:34 612

原创人工智能-自然语言处理(NLP)-应用场景：知识图谱

人工智能-自然语言处理(NLP)-应用场景：知识图谱

2021-02-06 23:52:41 1485 1

原创 NLP-2015：Attention机制用于CV领域【Attention机制：Hard Attention、Soft Attention】

《原始论文：Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》参考资料：论文笔记 - Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

2021-02-06 23:52:04 430 1

原创 ECMAScript6-ES6箭头函数：箭头函数语法、箭头函数里的this指向

ECMAScript6-ES6箭头函数：箭头函数语法、箭头函数里的this指向

2021-02-03 23:56:41 290

原创 Javascript：闭包（Closure）

# 一、变量的作用域要理解闭包，首先必须理解Javascript特殊的变量作用域。变量的作用域无非就是两种：全局变量和局部变量。Javascript语言的特殊之处，就在于函数内部可以直接读取全局变量。```javascript　　var n=999;　　function f1(){　　　　alert(n);　　}　　f1(); // 999```另一方面，在函数外部自然无法读取函数内的局部变量。```javascript　function f1(){　　　　var n=999

2021-02-03 23:45:08 126 1

原创 Javascript：apply()函数、call()函数

Javascript：apply()函数、call()函数

2021-02-03 23:44:35 142

原创自然语言处理(NLP)-第三方库(工具包)：NLTK（更适合英文数据集，在中文数据集上效果不好）【命名实体识别、分词、词性标注、依存句法分析、语义角色标注、语料库】

NLTK是构建Python程序以使用人类语言数据的领先平台。它为50多种语料库和词汇资源（如WordNet）提供了易于使用的界面，还提供了一套用于分类，标记化，词干化，标记，解析和语义推理的文本处理库，用于工业级NLP库的包装器，和积极的讨论论坛。由于实践指南介绍了编程基础知识以及计算语言学的主题，以及全面的API文档，NLTK适用于语言学家，工程师，学生，教育工作者，研究人员和行业用户等。 NLTK适用于Windows，Mac OS X和Linux。最重要的是，NLTK是一个免费的，开源的，社区驱动的项目

2021-02-03 23:43:50 968

原创算法-五大常用算法：贪心算法（Greedy Algorithm）

顾名思义，贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑，它所作出的选择只是在某种意义上的局部最优选择。当然，希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解，但对许多问题它能产生整体最优解。如单源最短路经问题，最小生成树问题等。在一些情况下，即使贪心算法不能得到整体最优解，其最终结果却是最优解的很好近似。从问题的某一个初始解出发逐步逼近给定的目标，以尽可能快的地求得更好的解。当达到算法中的某一步不能再继续前进时，算法停止。该算法存在问题：不能保

2021-02-03 23:33:04 641

原创模型过拟合-解决方案（一）：Regularization/正则化/Weight Decay【L1正则化、L2正则化】【为了约束模型的参数，防止参数过于偏执（为了拟合某些离群点而导致模型过于复杂）】

- 在解决回归**过拟合**中，我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题，除了一些算法本身作用之外（决策树、神经网络），我们更多的也是去自己做特征选择，包括之前说的删除、合并一些特征...

2021-02-03 23:32:07 391 1

原创自然语言处理(NLP)：概述【NLP技术的四个维度：声音、单词、句子结构、语义】

深度学习-自然语言处理：概述【NLP技术的四个维度：声音、单词、句子结构、语义】一、NLP的主要问题二、NLP技术的四个维度1、声音2、单词/Morphology层面的技术2.1 Word Segmentation（分词）2.2 Part-Of-Speech（POS/词性标注）2.3 Named Entity Recognition（NER/命名实体识别）3、句子结构/Syntax层面的技术3.1 句法分析3.2 依存分析4、语义/Semantic层面的技术4.1 机器学习算法4.2 情感分析三、练手|常见

2021-02-03 23:31:36 2442

原创算法-五大常用算法：动态规划（DP）算法【先求解小数据量下问题的结果，然后层层递推，求解更大的数据量的问题的结果】【维特比算法（Viterbi Algorithm）属于动态规划算法】

动态规划过程是：每次决策依赖于当前状态，又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的，所以，这种多阶段最优化决策解决问题的过程就称为动态规划。基本思想与分治法类似，也是将待求解的问题分解为若干个子问题（阶段），按顺序求解子阶段，前一子问题的解，为后一子问题的求解提供了有用的信息。在求解任一子问题时，列出各种可能的局部解，通过决策保留那些有可能达到最优的局部解，丢弃其他局部解。依次解决各子问题，最后一个子问题就是初始问题的解。由于动态规划解决的问题多数有重叠子问题这个特点，为减少重复计算，对

2021-02-03 23:30:24 2006

《Approaching (Almost) Any Machine Learning Problem》

中文小说短句序列文本复述数据集

时间序列预测-第六届全国工业互联网数据创新应用大赛：工业生产反应装置的建模预测

clustering-test-data

stop-words.txt

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

英文单词拼写混淆集：spell-errors.txt

带有词频的词典库：vocab.txt

空空如也