- 博客(29)
- 资源 (11)
- 收藏
- 关注
原创 BERT-based Lexical Substitution论文阅读
摘要:之前的词汇替换是通过查询目标词汇的同义词来实现的(e.g. WordNet), 然后基于文本对候选词打分。这种方法有两个限制: 忽略了不是同义词的但是效果很好的候选词汇 没有考虑同意替换对整个文本的影响 主体:对目标词进行embedding dropout,使得可以平衡目标词的语义信息和上下文信息。如果完全遮盖,返回的候选词可能与原词意思不同,却能满足上下文信息;如果不遮盖,返回的候选词大约99.99%会预测到原词。计算相似度时,将BERT前四层的表示做
2022-04-02 16:50:42 1109 2
原创 BERT论文阅读笔记
介绍1、双向预训练模型,使用MLM(masked language model):2、预训练模型,降低模型复杂度BERT是自监督学习(无监督学习),结构是Transformer Encoder.结构: pre-training: 预训练阶段,使用无标注文本数据 fine-tuning: 在下游任务使用监督数据进行微调GPT Transformer只可以进行左边文本的自注意力计算BERT可以进行双向注意力计算输入/输出特征输入单个句子:每个句
2022-04-02 14:43:49 1101
原创 error: RPC failed; curl 92 HTTP/2 stream 0 was not closed cleanly: CANCEL (err 8)
在使用git向github上传代码的时候,出现了以下错误:确实是一次上传的代码量较大 ,然后照着网上提供的方案,扩大post的buffer,但是在我这里没有什么效果,可能buffer还是不够大吧,hhh。你们可以先试下这个方案。git config http.postBuffer 524288000然后如果还没有解决的话,就试试下边这个方案,我们可以看到报错信息提到了HTTP/2,于是乎解决思路就是换回HTTP1上传。上传之后再切换回HTTP2。$ git config --
2021-10-06 19:01:07 5558
原创 SQL(Structured query language)
Relational Terminology Database: Set of named Relations Relation(Table): Schema: description("metadata") Instance: set of data satisfying the schema Attribute: (Column, Field) Tuple:(Record, Row) Quick check:Examples .
2021-09-05 12:18:42 151
原创 香港大学计算机授课型硕士(MSc)申请经验分享
在港大上了一周的课了,对校园和香港的生活也适应些了。闲暇之余,我想分享下我整个的申请历程,也可以给各位学弟学妹们提供参考。 一、先讲下自己的申请背景: 1、985院校 2、GPA(87.7) 3、雅思6.5 4、市创、“互联网+”市级三等奖 5、多项奖学金(学习、创新、学生组织相关的都有) 6、两段实验室经历(不得不说都有补助,但是在我申请的时候都...
2021-09-04 21:48:33 5550 4
原创 Chrome浏览器添加postwoman插件操作
postman是比较常用的API管理工具,但是免费使用的话一个项目只能添加两个协作者;这时它的另一半postwoman就显得十分好用了。这里主要讲解如何使用Chrome插件来为一个团队提供API管理。因为Chrome插件只能通过外网下载了,这里在附上插件下载地址CSDN地址:https://download.csdn.net/download/qq_41768451/18519278百度网盘链接:https://pan.baidu.com/s/1g_vFhf6iC_3ufa1Z40MjnQ 密码:2
2021-05-09 19:21:31 2065 1
原创 数据库
数据库索引:索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可以快速访问数据库表中的特定信息。如果想按照特定职员的姓能查找他或她,则与在表中搜索所有的行相比,索引有助于更快地获取信息。索引的一个主要目的就是加快检索表中数据的方法,亦即能协助信息搜索者尽快的找到符合限制条件的记录id的辅助数据结构使用B+树实现优点:通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性可以大大加快数据的检索速度可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义在使用分组和排序子
2021-04-15 23:10:38 143
原创 计算机网络
请你说一下TCP怎么保证可靠性,并且简述一下TCP建立连接和断开连接的过程TCP的可靠性:(1)序列号、确认应答,超时重传数据到达接收方,接收方需要发出一个确认应答,表示已经收到该数据段,并且确认序号会说明了它下一次需要接收的数据序列号。如果发送方迟迟未收到确认应答,那么可能是发送的数据丢失,也可能是确认应答丢失,这时发送方在等待一定时间后会进行重传。这个时间一般是2 * RTT(round-trip time)+ 一个偏差值。(2)窗口控制与高速重发控制/快速重传(重复确认应答)TCP会利用窗口
2021-04-14 18:10:42 204
原创 桶排序算法
桶排序桶排序应用于数组中对元素数量的排序。主要思路:记录每种元素出现的频数,需要遍历一次数组,时间复杂度为O(n)。这里使用哈希来记录,C++中使用unordered_map.并记录出现的频数的数目max_count。定义一个bucket二维数组(大小为max_count + 1,bucket[i]代表出现次数为i次),根据第一步记录的unordered_map中的值,依次将unordered_map中的元素放入桶中。循环完成后,bucket[1]中存放的是原始数组中出现了1次的元素,bucket
2021-04-13 00:17:27 122
原创 几种常见排序算法总结
对几种排序算法的总结这篇文章将介绍几种常见排序算法,包括快速排序、归并排序、插入排序、冒泡排序、选择排序六种算法的模板,并介绍STL几种排序算法的调用方式。1、快速排序快速排序用到二分的思路,因此时间复杂度为O(nlogn)。快排需要先处理子问题、然后递归处理子问题(与归并不同,归并先递归处理子问题,然后合并处理子问题)。因为快排需要处理边界问题,划分不当会出现无限划分和0划分的问题,从而导致时间超限,给出模板如下://快排模板1void quick_sort(vector<int>
2021-04-12 11:12:05 169
原创 解决远程服务器重置ssh无法连接的问题
问题:使用阿里云服务器,重置了一次系统,结果发现使用远程ssh无法连接,并且报了下边的错:@ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!Someone could be eavesdropping on yo
2020-07-04 16:36:22 3262
原创 Qt入门——Qt组件添加或移除
在安装完Qt后,面对不同的需求可能会发现需要一些组件但没有安装,或者有些组件没有太大用处,这时候,我们就可以将组件添加或者移除。具体步骤如下:打开安装的qt的文件夹,找到MaintenanceTool,双击打开。随便进入四个国内镜像网站中的任意一个中国科学技术大学:http://mirrors.ustc.edu.cn/qtproject/清华大学:https://mirrors.tuna.tsinghua.edu.cn/qt/北京理工大学:http://mirror.bit.edu
2020-06-30 09:58:23 1301 1
原创 Qt入门——第一章:Qt下载
可以前往qt的官网下载,这种的速度较慢,也可以前往国内的镜像网站下载。下面推荐几个国内比较好的镜像网站:中国科学技术大学:http://mirrors.ustc.edu.cn/qtproject/清华大学:https://mirrors.tuna.tsinghua.edu.cn/qt/北京理工大学:http://mirror.bit.edu.cn/qtproject/中国互联网络信息中心:https://mirrors.cnnic.cn/qt/进入界面:国内镜像网站进入页面都与官网一样。
2020-06-28 13:40:23 596
原创 支持向量机
支持向量机支持向量机(Support Vector Machine)是一种针对二分类任务设计的分类器,它的理论相对于神经网络模型来说更加完备和严密,在某些DL神经网络的输出层也会使用SVM用来分类(例如R-CNN)。下面我们将会探讨:间隔与支持向量:如何计算空间中任意一点到超平面的距离?什么是支持向量?什么是间隔?支持向量机求解的目标是什么?对偶问题:求取最大间隔等价于怎样的对偶问题?KKT条件揭示出支持向量机的什么性质?如何用SMO算法进行高效求解?为什么SMO算法能高效求解?核函数:如何处理
2020-06-28 01:09:56 348
转载 Github CodeReview常用缩写
TL;DR: Too Long; Don’t Read. PR 内容太多,没办法看PR:Pull Request. 拉取请求,给其他项目提交代码PTAL:Please take a look. 请看一看LGTM: Looks Good To Me. 代码已经过 review,可以合并SGTM: Sounds Good To Me. 和上面那句意思差不多,也是已经通过了 review 的意思WIP: Work In Progress. 告诉项目维护者这个功能还未完成,方便维护..
2020-05-26 13:14:02 661
原创 排序算法
快速排序:思路确定分界点,可以有q[l],q[(l+r)>>1],q[r],随机取边界值调整区间,使得左边区间是小于等于x的值,右边区间是大于等于x的值递归处理左右两段代码模板:#include<iostream>using namespace std;const int N = 1e6+10;int a[N];void quick_sort(int...
2020-03-22 23:12:42 84
原创 多源最短路径问题(bfs)
题目描述:公司的程序员不够用了,决定把产品经理都转变为程序员以解决开发时间长的问题。在给定的矩形网格中,每个单元格可以有以下三个值之一:值0代表空单元格;值1代表产品经理;值2代表程序员;每分钟,任何与程序员(在4个正方向上)相邻的产品经理都会变成程序员。返回直到单元格中没有产品经理为止所必须经过的最小分钟数。如果不可能,返回-1。以下是一个4分钟转变完成的示例:2 1 1...
2020-03-15 01:00:06 691
原创 Python网络爬虫与信息提取
requests库安装:pip install requests安装完成之后,打开ide测试import requests# 访问百度r = requests.get("http://wwww.baidu.com")# 返回状态码r.status_code# 改变网页编码为utf-8r.encoding = 'utf-8'# 以文本格式显示网页信息r.textreque...
2020-03-10 23:10:56 344
原创 Python爬取淘宝商品信息
在爬取淘宝商品信息时,需要先登录获取Cookie并且模拟User-Agentheaders = { "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari...
2020-03-09 21:29:44 886 5
原创 Python爬虫定向抓取静态网页
# 静态定向爬虫# 爬取中国大学排名import requestsfrom bs4 import BeautifulSoupimport bs4# 定义从网页获取信息的函数def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent...
2020-03-08 21:47:27 212
原创 线性回归
使用jupyter notebook实现,python3语法#%%#导入包import numpy as npimport matplotlib.pyplot as pltimport pandas as pd#%%# 导入数据datafile = 'ex1data1.txt'cols = np.loadtxt(datafile,delimiter=',',unpack=T...
2020-03-07 21:33:59 144
原创 操作系统
进程与线程:并发和并行的区别:并发:并发是多个事件在同一个时间段内执行并行:并行是多个事件在同一时间点执行**进程:**一个进程就是一个正在执行的程序的实例,一个程序可以若干个实例。进程的创建:4种事件会引起进程的创建:系统初始化正在运行的程序执行了创建进程的系统调用用户请求创建一个新进程一个批处理作业的初始化进程的终止:正常退出(自愿的)出错退出(自愿的)严重错...
2020-01-18 14:40:57 203
原创 人工智能导论
人工智能导论第一讲什么是人工智能:智能机器能够在各类环境中自主地或者交互得执行拟人任务的机器人工智能(能力)人工智能(能力)是智能机器所执行的通常与人类智能有关的智能行为,如判断、推理、证明、识别、感知、理解、通信、设计、思考、规划、学习和问题求解等思维活动。凡是固定了算法的,基本上都不算AI弱人工智能(在某个方面的智能)应用效果很强强人工智能(综合的多方面的人...
2020-01-18 14:39:58 2182
原创 生产者消费者问题
生产者消费者问题:编写生产者消费者函数:代码如下:#include <stdio.h>#include <stdlib.h>#include <unistd.h>#include <pthread.h>#include <semaphore.h>#define NUM_OF_PRODUCER 5 // 生产者的数目#de...
2019-11-20 20:50:28 163
原创 多线程目录拷贝
多线程目录拷贝1、多线程拷贝代码:#include<stdio.h>#include<stdlib.h>#include<unistd.h>#include<errno.h>#include<sys/types.h>#include<sys/stat.h>#include<dirent.h>#i...
2019-11-16 00:10:14 676
原创 计算机网络总结(自顶向上的学习方法)
计算机网络知识点总结第一节:1、IP地址决定数据包最终去哪里,MAC地址决定数据包下一跳去哪里2、 《1》应用层:所有能产生网络流量的程序 《2》表示层:在传输之前是否进行压缩或者加密 表示层:在传输之前是否加密或压缩(在传输之前进行的处理都是表示层) 更多是考法人员做的事情 《3》会话层:netstat - n 吗,命令可以查看打开的会话 可以通过查看会话查看...
2019-11-11 19:48:52 1167
多数组排序的OpenMp版本实现
2020-06-14
navicatpremiummachhwj.zip
2020-03-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人