期待脱离苦海的小叮当-CSDN博客

原创 NLP学习之便捷使用bert

https://github.com/huggingface/transformers

2021-01-04 14:12:51 224

Transformer的本质上是一个Encoder-Decoder的结构。编码器由6个编码block组成，同样解码器是6个解码block组成。与所有的生成模型相同的是，编码器的输出会作为解码器的输入。Encoder由N=6个相同的layer组成，layer指的就是上图左侧的单元，最左边有个“Nx”，这里是x6个。每个Layer由两个sub-layer组成，分别是multi-head self-attention mechanism和fully connected feed-forward network

2020-12-30 22:22:57 278

原创 KNN、朴素贝叶斯、LR、kmean、softmax、sigmoid、tanh

KNN：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。其算法的描述为：1）计算测试数据与各个训练数据之间的距离；2）按照距离的递增关系进行排序；3）选取距离最小的K个点；4）确定前K个点所在类别的出现频率；5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。朴素贝叶斯：算法优缺点：朴素贝叶斯分类算法，监督学习算法，而且是生成模型，优缺点主要包括：（1）算法优点：对大数量训练和

2020-12-30 21:59:23 500

原创 NLP学习之词向量模块

word2vec和fastText对比有什么区别？（word2vec vs fastText）1）都可以无监督学习词向量， fastText训练词向量时会考虑subword；2） fastText还可以进行有监督学习进行文本分类，其主要特点：结构与CBOW类似，但学习目标是人工标注的分类结果；采用hierarchical softmax对输出的分类标签建立哈夫曼树，样本中标签多的类别被分配短的搜寻路径；引入N-gram，考虑词序特征；引入subword来处理长词，处理未登陆词问题；elmo、G

2020-12-30 19:32:15 215

原创 NLP常见面试题

1、什么是困惑度（perplexity）？它在 NLP 中的作用是什么？困惑度是一种用于评估语言模型通顺程度的方法，测评困惑度的方法为：对测试集中的句子计算语言模型概率，概率越高则语言模型越好。由公式可知，句子概率越大，语言模型越好，迷惑度越小。2、梯度爆炸和梯度消失是什么？如何解决？反向传播时，如果网络过深，每层梯度连乘小于1的数，值会趋向0，发生梯度消失。大于1则趋向正无穷，发生梯度爆炸。梯度爆炸 — 梯度剪裁梯度剪裁：如果梯度过大则投影到一个较小的尺度上梯度消失 — 使用ReLU 和

2020-12-30 19:29:09 1483 1

原创 NLP学习之BERT

bert的双向体现在？mask+attention，mask的word结合全部其他encoder word的信息。Bert的是怎样实现mask构造的？MLM：将完整句子中的部分字mask，预测该mask词NSP：为每个训练前的例子选择句子 A 和 B 时，50% 的情况下 B 是真的在 A 后面的下一个句子， 50% 的情况下是来自语料库的随机句子，进行二分预测是否为真实下一句。在数据中随机选择 15% 的标记，其中80%被换位[mask]，10%不变、10%随机替换其他单词，这样做的原因是什么？

2020-12-30 19:07:15 1861

原创 NLP知识点之bagging、gbdt、xgboost和lightGBM

偏差和方差：偏差.预测值与真实值之间的误差。方差：模型的拟合程度。bagging：Bagging 的思路是所有基础模型都一致对待，每个基础模型手里都只有一票。然后使用民主投票的方式得到最终的结果。大部分情况下，经过 bagging 得到的结果方差（variance）更小。Boosting：Boosting 和 bagging 最本质的差别在于他对基础模型不是一致对待的，而是经过不停的考验和筛选来挑选出「精英」，然后给精英更多的投票权，表现不好的基础模型则给较少的投票权，然后综合所有人的投票得到

2020-12-30 15:14:42 941

原创密码学基础

概述：常见编码：常见加密算法：常见的摘要：MD5

2020-12-11 20:46:29 122

原创 CTF之web

wireshark使用：打开软件，选中局域网或者本地连接。在搜索框中输入查询的ip和端口，具体格式为：http and addres IP地址 and porthttp and ip.addr == 127.0.0.1 and tcp.port == 8080http and ip.addr == 127.0.0.1 and udp.port == 8080http contains “suda”以上三条是示例。御剑：打开之后直接在域名框中输入对应的域名，之后选择相应的要求。查询相应的文件

2020-12-10 22:19:05 719

原创 CTF之反编译

步骤：1、使用软件：PE查看信息，如果文件加了壳，使用命令upx -d 文件名进行脱壳。2、使用IDA查看文件的汇编代码。可以投机（直接text查找）3、光标定位main的位置，使用jump下面jump to pseudocode进行反编译找到对应的C++代码。4、找到代码的逻辑，解读代码，找到最后的答案。5、注意：IDA中的存储方式：大小端存储。情况二1、提供.pyc文件，使用命令uncompyle6 -o .文件名。将文件恢复为py文件，解读信息，找到答案。情况三java的反编译：倘若

2020-12-10 21:39:05 835

原创操作系统主要考点

周转时间：完成时间-提交时间应用程序调用系统调用，内核调用相应的内核函数。操作系统体系结构：模块组合、层次结构、微内核。进程通信：共享存储系统、消息传递、管道通信。多线程模型：多对一：多个用户映射一个内核线程，只要有一个用户级线程瘫痪整个，系统都会瘫痪。一对一：不会互相影响，较好。多对多：更好。可以进行进程调度：当前进程运行结束、当前进程进入阻塞状态、系统调用完成后饭会用户进程、抢占式、分时系统。不能进行进程调度的是：处理中断、在系统内核程序临界区、原子操作。常见进程调度算法：先来先服

2020-12-10 14:11:20 703

原创计网高频考点

传输层：只有主机才有网络层可以把数据从一个主机传送到另一个主机，但是没有和进程建立联系。传输层就是讲进程和收到的数据联系到一起，使数据能够为应用服务所以说传输层是主机才有的层次。递归查询在上图中主机先是想本地域名服务器发送请求，如果查不到的话，本地域名服务器向根域名服务器发送请求（找别...

2020-12-07 11:43:02 168

原创计算机网络考点整理

用户层：用户与网络的界面使用的协议：文件传输（FTP）、电子邮件（SMTP）、万维网（HTTP）表示层：用于处理在两个通信系统中交换信息的表示方式（语法和语义）：功能一数据格式变换（翻译官）、功能二数据加密解密、功能三数据的压缩和恢复。主要协议（JPG，ASII）会话层：向表示层实体/用户进程提供建立连接并在连接上有序的传输数据。这是会话，也是同步（SYN）。功能一建立、管理、终止会话。功能二使用校验点可使会话在通信失效时从校验点/同步点继续恢复通信，实现数据同步（适用于...

2020-12-07 11:42:55 562

原创 Nmap

只会扫描端口。演示：

2020-12-06 20:57:48 127

原创排序算法

1、冒泡排序（Bubble Sort）冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列，一次比较两个元素，如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。下面展示一些内联代码片。// An highlighted blockfunction bubbleSort(arr) { var len = arr.length; for (var i .

2020-12-06 19:00:46 770

原创数据库范式讲解

首先，不同范式之间的关系：第一范式 1NF：属于第一范式关系的所有属性都不可再分，即数据项不可分。第一范式强调数据表的原子性，是其他范式的基础。如下图所示数据库就不符合第一范式：上表将商品这一数据项又划分为名称和数量两个数据项，故不符合第一范式关系。改正之后如下图所示：上表就符合第一范式关系。但日常生活中仅用第一范式来规范表格是远远不够的，依然会存在数据冗余过大、删除异常、插入异常、修改异常的问题，此时就需要引入规范化概念，将其转化为更标准化的表格，减少数据依赖。规范化：一个低一级的关系

2020-12-06 18:10:49 366

原创数据库模式（三级模式+两级映射）

三级模式：外模式、概念模式、内模式，有效地组织、管理数据，提高了数据库的逻辑独立性和物理独立性。用户级–> 外模式(反映了数据库系统的用户观)外模式又称子模式或用户模式，对应于用户级。它是某个或某几个用户所看到的数据库的数据视图，是与某一应用有关的数据的逻辑表示。外模式是从模式导出的一个子集，包含模式中允许特定用户使用的那部分数据。用户可以通过外模式描述语言来描述、定义对应于用户的数据记录(外模式)，也可以利用数据操纵语言(Data Manipulation Language，DML)对这些数据记

2020-12-06 11:43:08 1208

原创计算机组成与体系结构

计算机系统包括：硬件（主机，外部设备）、软件（系统软件和应用软件）。CPI表示执行一条指令所需要的时钟周期数。存储控制器能用只读ROM实现。硬盘驱动器向盘片磁道记录数据时采用串行方式写入。程序执行中断需要保护现场，DAM不需要。某一时刻只能有一个部件向总线发送信息，但是可以有多个部件接收信息。数据总线双向传输，地址总线单向传输，控制总线单向传输，对控制总线总体而言，控制是双向的。硬连线控制器中，使用节拍发生器，来区别不同指令的执行步骤。...

2020-12-06 11:33:23 164

原创数据库刷题

数据库刷题数据模型包括：数据结构、数据操作、数据完整性。数据独立性是指数据独立于应用程序。数据库的外码是另一个表的码。关系代数的运算对象是关系，运算结果也是关系。自然连接，利用共域进行连接。实体完整性约束规定，主键不可以为空。关系模型中，数据是由一个行和列组成。一个汉字占用两个字节的信息，所以在匹配的时候一个字匹配“__”。order、counte、from都不属于标准的数据库语言。可以对试图更新，包括，插入删除和修改。最终都会转变为基本表的操作。一个查询成为另一个查询的条件称为：子查

2020-12-05 20:28:38 348

原创排序学习（Learning to rank）综述

https://blog.csdn.net/anshuai_aw1/article/details/86018105链接: https://blog.csdn.net/anshuai_aw1/article/details/86018105.

2020-07-24 11:22:15 259

原创学习笔记learning to rank--LightGBM--参数介绍

LightGBM的核心参数gridsearchcv工作机制GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。这两个概念都比较好理解，网格搜索，搜索的是参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这其实是一个循环和比较的过程。GridSearchCV可以保证在指定的参数范围内找到精度最高的参数，但是这也是网格搜索的缺陷所在，它要求遍历所有可能参数的组合，在面对大数据集和多参数

2020-07-22 19:54:06 492

原创学习笔记learning to rank--LightGBM--参数介绍

lightgbm.LGBMRankerboosting_type (string, optional (default=‘gbdt’))一种可以用来减小监督式学习中偏差的机器学习算法。供选择的参数有：- ‘gbdt’, traditional Gradient Boosting Decision Tree.GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regre

2020-07-22 18:26:57 1398

原创学习笔记learning to rank--LightGBM--ltr--rank代码

以下代码用于对learning to rankimport lightgbm as lgbprint("Loading data ...")# load the data in the data settrain_file = "/yahoo.train"vaild_file = "/yahoo.test"print("start to load the data")train_data = lgb.Dataset(train_file)vaild_data = lgb.Datas

2020-07-22 17:24:00 912

原创学习笔记learning to rank--lightGBM--yahoo-ltr

以下的代码用于处理Yahoo的数据使其成为lightGBM使用的格式最开始vaild.txt数据集的格式：label \t qid:id \t feature1 qid:19945 1:0.74142 6:0.90265 7:0.8087 8:0.79522 9:0.80003 11:0.56756 12:0.064688 17:0.073248处理之后：.vaild格式label " " feature1 1:0.74142 6:0.90265 7:0.8087 8:0.79522 9:0.

2020-07-22 17:18:46 461 1