自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 NLP学习之便捷使用bert

https://github.com/huggingface/transformers

2021-01-04 14:12:51 147

原创 NLP学习之语言模型LM

2020-12-30 22:43:54 414

原创 NLP学习之transformer

Transformer的本质上是一个Encoder-Decoder的结构。编码器由6个编码block组成,同样解码器是6个解码block组成。与所有的生成模型相同的是,编码器的输出会作为解码器的输入。Encoder由N=6个相同的layer组成,layer指的就是上图左侧的单元,最左边有个“Nx”,这里是x6个。每个Layer由两个sub-layer组成,分别是multi-head self-attention mechanism和fully connected feed-forward network

2020-12-30 22:22:57 194

原创 KNN、朴素贝叶斯、LR、kmean、softmax、sigmoid、tanh

KNN:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。其算法的描述为:1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;4)确定前K个点所在类别的出现频率;5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。朴素贝叶斯:算法优缺点:朴素贝叶斯分类算法,监督学习算法,而且是生成模型,优缺点主要包括:(1)算法优点:对大数量训练和

2020-12-30 21:59:23 418

原创 NLP学习之词向量模块

word2vec和fastText对比有什么区别?(word2vec vs fastText)1)都可以无监督学习词向量, fastText训练词向量时会考虑subword;2) fastText还可以进行有监督学习进行文本分类,其主要特点:结构与CBOW类似,但学习目标是人工标注的分类结果;采用hierarchical softmax对输出的分类标签建立哈夫曼树,样本中标签多的类别被分配短的搜寻路径;引入N-gram,考虑词序特征;引入subword来处理长词,处理未登陆词问题;elmo、G

2020-12-30 19:32:15 159

原创 NLP常见面试题

1、什么是困惑度(perplexity)?它在 NLP 中的作用是什么?困惑度是一种用于评估语言模型通顺程度的方法,测评困惑度的方法为:对测试集中的句子计算语言模型概率,概率越高则语言模型越好。由公式可知,句子概率越大,语言模型越好,迷惑度越小。2、梯度爆炸和梯度消失是什么?如何解决?反向传播时,如果网络过深,每层梯度连乘小于1的数,值会趋向0,发生梯度消失。大于1则趋向正无穷,发生梯度爆炸。梯度爆炸 — 梯度剪裁梯度剪裁:如果梯度过大则投影到一个较小的尺度上梯度消失 — 使用ReLU 和

2020-12-30 19:29:09 1370 1

原创 NLP学习之BERT

bert的双向体现在?mask+attention,mask的word结合全部其他encoder word的信息。Bert的是怎样实现mask构造的?MLM:将完整句子中的部分字mask,预测该mask词NSP:为每个训练前的例子选择句子 A 和 B 时,50% 的情况下 B 是真的在 A 后面的下一个句子, 50% 的情况下是来自语料库的随机句子,进行二分预测是否为真实下一句。在数据中随机选择 15% 的标记,其中80%被换位[mask],10%不变、10%随机替换其他单词,这样做的原因是什么?

2020-12-30 19:07:15 1731

原创 NLP知识点之bagging、gbdt、xgboost和lightGBM

偏差和方差:偏差.预测值与真实值之间的误差。方差:模型的拟合程度。bagging:Bagging 的思路是所有基础模型都一致对待,每个基础模型手里都只有一票。然后使用民主投票的方式得到最终的结果。大部分情况下,经过 bagging 得到的结果方差(variance)更小。Boosting:Boosting 和 bagging 最本质的差别在于他对基础模型不是一致对待的,而是经过不停的考验和筛选来挑选出「精英」,然后给精英更多的投票权,表现不好的基础模型则给较少的投票权,然后综合所有人的投票得到

2020-12-30 15:14:42 848

原创 密码学基础

概述:常见编码:常见加密算法:常见的摘要:MD5

2020-12-11 20:46:29 94

原创 CTF之web

wireshark使用:打开软件,选中局域网或者本地连接。在搜索框中输入查询的ip和端口,具体格式为:http and addres IP地址 and porthttp and ip.addr == 127.0.0.1 and tcp.port == 8080http and ip.addr == 127.0.0.1 and udp.port == 8080http contains “suda”以上三条是示例。御剑:打开之后直接在域名框中输入对应的域名,之后选择相应的要求。查询相应的文件

2020-12-10 22:19:05 598

原创 CTF之反编译

步骤:1、使用软件:PE查看信息,如果文件加了壳,使用命令upx -d 文件名进行脱壳。2、使用IDA查看文件的汇编代码。可以投机(直接text查找)3、光标定位main的位置,使用jump下面jump to pseudocode进行反编译找到对应的C++代码。4、找到代码的逻辑,解读代码,找到最后的答案。5、注意:IDA中的存储方式:大小端存储。情况二1、提供.pyc文件,使用命令uncompyle6 -o .文件名。将文件恢复为py文件,解读信息,找到答案。情况三java的反编译:倘若

2020-12-10 21:39:05 701

原创 操作系统主要考点

周转时间:完成时间-提交时间应用程序调用系统调用,内核调用相应的内核函数。操作系统体系结构:模块组合、层次结构、微内核。进程通信:共享存储系统、消息传递、管道通信。多线程模型:多对一:多个用户映射一个内核线程,只要有一个用户级线程瘫痪整个,系统都会瘫痪。一对一:不会互相影响,较好。多对多:更好。可以进行进程调度:当前进程运行结束、当前进程进入阻塞状态、系统调用完成后饭会用户进程、抢占式、分时系统。不能进行进程调度的是:处理中断、在系统内核程序临界区、原子操作。常见进程调度算法:先来先服

2020-12-10 14:11:20 631

原创 计网高频考点

传输层:只有主机才有网络层可以把数据从一个主机传送到另一个主机,但是没有和进程建立联系。传输层就是讲进程和收到的数据联系到一起,使数据能够为应用服务所以说传输层是主机才有的层次。递归查询在上图中主机先是想本地域名服务器发送请求,如果查不到的话,本地域名服务器向根域名服务器发送请求(找别...

2020-12-07 11:43:02 122

原创 计算机网络考点整理

用户层:用户与网络的界面使用的协议:文件传输(FTP)、电子邮件(SMTP)、万维网(HTTP)表示层:用于处理在两个通信系统中交换信息的表示方式(语法和语义):功能一 数据格式变换(翻译官)、功能二数据加密解密、功能三 数据的压缩和恢复。主要协议(JPG,ASII)会话层:向表示层实体/用户进程提供建立连接并在连接上有序的传输数据。这是会话,也是同步(SYN)。功能一 建立、管理、终止会话。功能二 使用校验点可使会话在通信失效时从校验点/同步点继续恢复通信,实现数据同步(适用于...

2020-12-07 11:42:55 520

原创 Nmap

只会扫描端口。演示:

2020-12-06 20:57:48 95

原创 排序算法

1、冒泡排序(Bubble Sort)冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。下面展示一些 内联代码片。// An highlighted blockfunction bubbleSort(arr) { var len = arr.length; for (var i .

2020-12-06 19:00:46 394

原创 数据库范式讲解

首先,不同范式之间的关系:第一范式 1NF:属于第一范式关系的所有属性都不可再分,即数据项不可分。第一范式强调数据表的原子性,是其他范式的基础。如下图所示数据库就不符合第一范式:上表将商品这一数据项又划分为名称和数量两个数据项,故不符合第一范式关系。改正之后如下图所示:上表就符合第一范式关系。但日常生活中仅用第一范式来规范表格是远远不够的,依然会存在数据冗余过大、删除异常、插入异常、修改异常的问题,此时就需要引入规范化概念,将其转化为更标准化的表格,减少数据依赖。规范化: 一个低一级的关系

2020-12-06 18:10:49 313

原创 数据库模式(三级模式+两级映射)

三级模式:外模式、概念模式、内模式,有效地组织、管理数据,提高了数据库的逻辑独立性和物理独立性。用户级–> 外模式(反映了数据库系统的用户观)外模式又称子模式或用户模式,对应于用户级。它是某个或某几个用户所看到的数据库的数据视图,是与某一应用有关的数据的逻辑表示。外模式是从模式导出的一个子集,包含模式中允许特定用户使用的那部分数据。用户可以通过外模式描述语言来描述、定义对应于用户的数据记录(外模式),也可以利用数据操纵语言(Data Manipulation Language,DML)对这些数据记

2020-12-06 11:43:08 1085

原创 计算机组成与体系结构

计算机系统包括:硬件(主机,外部设备)、软件(系统软件和应用软件)。CPI表示执行一条指令所需要的时钟周期数。存储控制器能用只读ROM实现。硬盘驱动器向盘片磁道记录数据时采用串行方式写入。程序执行中断需要保护现场,DAM不需要。某一时刻只能有一个部件向总线发送信息,但是可以有多个部件接收信息。数据总线双向传输,地址总线单向传输,控制总线单向传输,对控制总线总体而言,控制是双向的。硬连线控制器中,使用节拍发生器,来区别不同指令的执行步骤。...

2020-12-06 11:33:23 122

原创 数据库刷题

数据库刷题数据模型包括:数据结构、数据操作、数据完整性。数据独立性是指数据独立于应用程序。数据库的外码是另一个表的码。关系代数的运算对象是关系,运算结果也是关系。自然连接,利用共域进行连接。实体完整性约束规定,主键不可以为空。关系模型中,数据是由一个行和列组成。一个汉字占用两个字节的信息,所以在匹配的时候一个字匹配“__”。order、counte、from都不属于标准的数据库语言。可以对试图更新,包括,插入删除和修改。最终都会转变为基本表的操作。一个查询成为另一个查询的条件称为:子查

2020-12-05 20:28:38 296

原创 排序学习(Learning to rank)综述

https://blog.csdn.net/anshuai_aw1/article/details/86018105链接: https://blog.csdn.net/anshuai_aw1/article/details/86018105.

2020-07-24 11:22:15 207

原创 学习笔记learning to rank--LightGBM--参数介绍

LightGBM的核心参数gridsearchcv工作机制GridSearchCV的名字其实可以拆分为两部分,GridSearch和CV,即网格搜索和交叉验证。这两个概念都比较好理解,网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个循环和比较的过程。GridSearchCV可以保证在指定的参数范围内找到精度最高的参数,但是这也是网格搜索的缺陷所在,它要求遍历所有可能参数的组合,在面对大数据集和多参数

2020-07-22 19:54:06 423

原创 学习笔记learning to rank--LightGBM--参数介绍

lightgbm.LGBMRankerboosting_type (string, optional (default=‘gbdt’))一种可以用来减小监督式学习中偏差的机器学习算法。供选择的参数有:- ‘gbdt’, traditional Gradient Boosting Decision Tree.GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regre

2020-07-22 18:26:57 1227

原创 学习笔记learning to rank--LightGBM--ltr--rank代码

以下代码用于对learning to rankimport lightgbm as lgbprint("Loading data ...")# load the data in the data settrain_file = "/yahoo.train"vaild_file = "/yahoo.test"print("start to load the data")train_data = lgb.Dataset(train_file)vaild_data = lgb.Datas

2020-07-22 17:24:00 832

原创 学习笔记learning to rank--lightGBM--yahoo-ltr

以下的代码用于处理Yahoo的数据使其成为lightGBM使用的格式最开始vaild.txt数据集的格式:label \t qid:id \t feature1 qid:19945 1:0.74142 6:0.90265 7:0.8087 8:0.79522 9:0.80003 11:0.56756 12:0.064688 17:0.073248处理之后:.vaild格式label " " feature1 1:0.74142 6:0.90265 7:0.8087 8:0.79522 9:0.

2020-07-22 17:18:46 377 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除