信息科学
无聊的人生事无聊
Github:https://github.com/Wangpeiyi9979
\\
新浪微博:https://weibo.com/5018811409/info
\\
知乎:https://www.zhihu.com/people/wang-pei-yi-48/activities
展开
-
自然语言处理名言
You shall know a word by the company it keeps ——J. R. Firth 1957: 11(开创现代统计NLP的核心思想)”原创 2020-01-03 15:41:00 · 1164 阅读 · 0 评论 -
可视化: Python—MatPlotLib—多模型的ROC曲线
文章目录示例代码解释示例代码from sklearn.metrics import roc_curve, aucimport matplotlib as mpl import matplotlib.pyplot as pltplt.figure(figsize=(15, 10))def plot_roc(labels, predict_probs, titles): c...原创 2019-11-25 21:31:26 · 3821 阅读 · 1 评论 -
可视化: Python—MatPlotLib—CV常用对比图绘制
文章目录样例代码:解释样例代码:plt.figure(figsize=(10, 2))plt.subplots_adjust(bottom=0, left=.01, right=.99, top=.90, hspace=.35)for idx, inp in enumerate(show_dogs): inp_origin = inp[0].numpy().transpose(...原创 2019-11-24 15:21:57 · 686 阅读 · 0 评论 -
可视化: Python—MatPlotLib—折线图带子图
文章目录图示代码图示代码import matplotlib.pyplot as plt import numpy as npdef plot_epoch_for_performance_and_loss(model_name, res_dict): """Function: 评价指标以及训练集...原创 2019-11-04 20:12:20 · 280 阅读 · 0 评论 -
论文笔记:Simplify the Usage of Lexicon in Chinese NER Minlong
文章目录一、摘要二、模型三、实验结果一、摘要以前我们已经提到过一篇结合字典进行中文命名实体识别的文章《Chinese NER Using Lattice LSTM》. 这个方法能够一定程度解决分词错误。然而,这个方法有一个重要的缺陷,就是效率低下,其在源码的issue中也提到了,目前竟然不支持并行化。因此,这篇文章希望设计出一种更加有计算效率的方式。二、模型该论文主要是在底层字和词的表示上...原创 2019-10-28 17:25:01 · 2938 阅读 · 5 评论 -
论文笔记:A Neural Multi-digraph Model for Chinese NER with Gazetteers
文章目录一、摘要二、模型1、构图2、GGNN三、实验结果一、摘要文章提出了一种基于图神经网络并结合多种词典的命名实体识别方法,主要的新意是让模型自动去学习词典的特征,而不是像《Incorporating dictionaries into deep neural networks for the Chinese clinical NER》那样基于人工的策略去构建。二、模型1、构图首先根...原创 2019-10-28 13:23:06 · 2561 阅读 · 0 评论 -
论文笔记:Representation Learning of Knowledge Graphs with Entity Descriptions
文章目录一、摘要二、简介三、方法词袋模型编码器CNN编码器四、实验结果一、摘要文章提出了一种结合【实体外部描述】和【三元组】的知识图谱表示学习方法。在【知识图谱补全】和【实体分类】两个任务上取得了很大的提升。并且很重要的一点是,该方法能够自然地解决【实体不在图谱中的问题】。二、简介文章使用了两种表示方法进行知识图谱表示:基于结构的表示方法,如Trans-E等。基于描述的表示方法,利用...原创 2019-10-26 17:27:29 · 1834 阅读 · 0 评论 -
论文笔记:Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition
文章目录摘要一、模型二、结果三、疑惑摘要文章设计了一种利用外部词典加强命名实体识别的方法,整个模型大致分为【Inner-Region Encoder】、【Attentive Context Encoder】、【Utterance Encoder】三个部分, 模型概略图如下所示:该模型有助于解决缺乏训练数据的场景一、模型【Inner-Region Encoder】: 对应模型图的(a)部...原创 2019-10-25 10:28:26 · 1056 阅读 · 5 评论 -
论文笔记:Chinese NER Using Lattice LSTM Yue
文章目录摘要一、简介指导性结论摘要文章提出了一种将【字】和所有【潜在词组】作为输入的模型。其有以下优势:对于基于字的方法:模型利用了词组的信息对于基于词的方法:模型设计了门控机制,解决了分词错误问题。一、简介文章为了在避免分词错误的情况下利用词信息,设计了一种Lattice LSTM的结构,其可以自动学习一些词组,作为输入。示意图如下:指导性结论对于中文NER来说,基于字符...原创 2019-10-23 22:35:06 · 611 阅读 · 0 评论 -
论文笔记:Incorporating dictionaries into deep neural networks for the Chinese clinical NER
文章目录摘要一、简介二、相关工作三、模型四、融合词典信息N-Gram FeaturePIPEPDET五、融合结构六、实验结果摘要融合了字典到深度神经网络中,解决了一些稀有实体不能被识别的问题。一、简介对每个中文字符,基于字典和上下文设计了5种不同的Schemes来创建特征向量。介绍了两种结构融合特征向量和字的Embedding向量二、相关工作现有工作可分为四类:(1)基于规则的。(2...原创 2019-10-23 17:34:32 · 1295 阅读 · 2 评论 -
论文笔记:A Study of the Importance of External Knowledge in the Named Entity Recognition Task
文章目录摘要一、简介二、知识分类2.1 Knowledge Agnostic(A)2.2 Name-Based Knowledge (Name)2.3 Knowledge-Base-Based Knowledge (KB)2.4 Entity-Based Knowledge (Entity)摘要文章提出了一种框架,其将用于命名实体识别的【Knowledge】划分为了4类。一、简介文章试图【...原创 2019-10-23 12:40:45 · 465 阅读 · 0 评论 -
矩阵理解
前言: 恍惚学了线性代数已经两年,分考的倒是蛮高。但是自认为远远没有理解. 我想, 中国的大学教育依旧是逃不脱应试教育的。数学应该比做对几道题更有意义。翻过了大量资料,简单记录下来几篇优秀文章的思想.空间1由无穷多个位置组成。这些位置间有相互关系。空间能够容纳运动,且运动是瞬时的。总之:“空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动。线性空间线性空间中的任何...原创 2019-02-26 16:09:19 · 535 阅读 · 0 评论 -
自然语言处理——信息抽取——远程监督关系抽取
前言:从小到大一直没有做笔记的习惯, 不过成绩一直还算好, 所以从不重视, 考试就是抱着一本书从头看到尾,感觉这样心里也踏实.不过前段时间跟着学长开始进行科研, 读了好多关于关系抽取的文章,后来发现不做笔记确实力不从心了. 第二次又要画大量时间重读. 现在关系抽取告一段落, 特地对读过的文章整理总结,也算告别过去,踏上新的征程.文章目录基本介绍问题定义问题运用分类^[http://sho...原创 2019-02-22 12:55:39 · 2805 阅读 · 0 评论 -
带权并查集理解
前言:这几天做了几个带权并查集的问题,看了网上的大量博客,也有自己的一些理解,特地总结一下。文章目录回顾带权并查集带权并查集题型特点。例题:Bug's Life回顾理清理论的发展历史有助于了解理论,因此我们先回顾一下普通的并查集。戳这里.和这里,感谢博主带我入门这里有几个值得注意的地方(也是个人做题中踩过的坑)。在包含路径压缩算法的, 调用find_father(x)后,x所在集合...原创 2019-03-03 10:21:56 · 441 阅读 · 0 评论 -
Java: 对象赋值
前言: 首先明确Java中万物都是类。而对于类的赋值,一直都很疑惑,因此总结一下文章目录一个例子图示总结一个例子对int型做测试,输出其值和地址。C:#include<stdio.h>using namespace std;int main(){ int a, b; a = 1; b = 2; printf(&am原创 2019-03-02 12:36:18 · 1383 阅读 · 1 评论 -
2018研究生推免上机考试
文章目录区间内的真正素数简单密码:区间内的真正素数考察点:素数筛选(埃式筛法如下):void get_prime(){ is_prime[0] = is_prime[1] = 0; for(int i=2; i<max_n; i++){ if(!is_prime[i]) continue; for(int j=i*i; j&a原创 2019-03-01 15:41:44 · 407 阅读 · 0 评论 -
自然语言处理关系抽取:数据处理第二阶段
一、前言:在数据处理的第一阶段中,我们主要的到了三个文件(1):vector.txt:存放有1+114042个单词以及其embedding向量的txt文件(2):bags_train.txt,bags_test.txt :存放了训练数据。包括实体id,实体名,关系种类,句子数量,句子id表示向量,相对位置表示向量,以及用于pcnn的mask向量。二、数据预处理第二阶段:由txt文件生成用...原创 2019-02-21 15:59:49 · 1168 阅读 · 2 评论 -
自然语言处理关系抽取:数据处理第一阶段
前言:最近跟着实验室学长做了两篇关系抽取的论文。回过头来还是想重新整理一下思路。把每个细节在巩固一下。首先来看数据。一、数据概述:数据集,NYT数据:(1)一共53种所要预测的关系,其中包括一种‘NA’,即没有关系。(2)训练集中一共522611个句子, 281270个实体, 以及18252个含有关系的句子(即不是NA)。(3)测试集中一共172448个句子,96678个实体,以及1...原创 2019-02-21 15:59:36 · 1730 阅读 · 3 评论 -
自然语言处理关系抽取:数据处理第三阶段
一、前言:在数据处理第二阶段中,我们准备好了初始化各embedding层的向量:1、self.w2v: word_embedding初始化权重所需np矩阵。2、self.kbe_2v, self.kbr_2v: REKA实体、关系embedding权重初始化所需np矩阵。也准备好了解析句子需要的数据结构:3、self.word2id, self.id2word:处理相关句子所需字典。4...原创 2019-02-21 15:59:14 · 1189 阅读 · 0 评论 -
计算机考研-机试指南, 第七章:动态规划
N阶楼梯上楼问题题意: 一次走两阶或者一阶,问有多少种上楼方式。dp[i]为i阶楼梯方式。目标dp[n]。考察最后一步,要么上一阶,要么上二阶。故状态转移方程为dp[n] = dp[n-1] + dp[n-2]初态dp[1] = 1,dp[2] = 2.不容易系列之一题意: 完全错排问题dp[i]表示1到i完全错排种类数。目标dp[n].考察第一个数与其他数。从后面选择一个数...原创 2019-02-12 22:13:29 · 442 阅读 · 0 评论 -
计算机考研-机试指南, 第六章:搜索
全排列递归注意要按字典序输出#include <iostream>#include <stdio.h>#include <algorithm&原创 2019-01-31 10:44:35 · 294 阅读 · 1 评论 -
Pytorch: 固定初始化参数
训练集测试集划分固定# 通过设置random_state设置固定比例x_train, x_test, y_train, y_test = train_test_split(x_test, y, test_size = 0.1, random_state=seed)torch中的随机种子# cputorch.manual_seed(seed)# gputorch.cuda.m...原创 2019-01-22 12:04:13 · 3344 阅读 · 0 评论 -
计算机考研-机试指南, 第五章:图论
并查集int fine_tree(int a){ if(tree[a] == -1) return a; int tmp = find_tree(tree[a]); tree[a] = tmp; return tmp;}原创 2019-01-17 10:59:20 · 297 阅读 · 0 评论 -
计算机考研-机试指南, 第四章:数学问题
分解数int buff[20], n;int size = 0;while(n){ buff[size++] = n % 10; n /= 10;}原创 2019-01-07 08:05:07 · 301 阅读 · 0 评论 -
计算机考研-机试指南, 第三章:数据结构
一些基本操作栈头文件 #include<stack>声明: stack<type> S入栈: S.push(value)出栈: S.pop()取栈顶: S.top()括号匹配问题解题思路遇到&a原创 2019-01-03 08:05:10 · 250 阅读 · 0 评论 -
Python:存取npy格式数据
数据处理的时候主要通过两个函数(1):np.save(“test.npy”,列表) ----存数据(2):data =np.load('test.npy") ----取数据注意:npy数据存数据时最好组织为列表的形式给个例子如下z = [[[1, 2, 3], ['w']], [[1, 2, 3], ['w']]]np.save('test.npy', z)x = ...原创 2018-10-12 09:28:48 · 7601 阅读 · 1 评论 -
Pytorch:BertModel使用
文章目录基本介绍简单例子:参考基本介绍环境: Python 3.5+, Pytorch 0.4.1/1.0.0安装:pip install pytorch-pretrained-bert必需参数:--data_dir: "str": 数据根目录.目录下放着,train.xxx/dev.xxx/test.xxx三个数据文件.--vocab_dir: "str": 词库文件地址...原创 2019-04-10 19:15:50 · 18667 阅读 · 5 评论 -
Pytorch: 命名实体识别: BertForTokenClassification/pytorch-crf
文章目录基本介绍BertForTokenClassficationpytorch-crf实验项目参考基本介绍命名实体识别:命名实体识别任务是NLP中的一个基础任务。主要是从一句话中识别出命名实体。比如姚明在NBA打球从这句话中应该可以识别出姚明(人), NBA(组织)这样两个实体。常见的方法是对字或者词打上标签。B-type, I-type, O, 其中B-type表示组成改类型...原创 2019-04-27 10:59:48 · 12184 阅读 · 5 评论 -
数据结构: 线段树
文章目录简介树节点建树区间查询简介线段树是一种二叉树形数据结构,1977年由Jon Louis Bentley发明, 上面的每个节点用来存储区间和线段,特别的,叶子节点存储长度为1的线段,即一个值。对区间的查找和节点的更新都可以在O(logN)O(logN)O(logN)的内完成。其空间复杂度为O(4N)O(4N)O(4N)。运用延迟更新技术,其可用于区间的更新,时间复杂度仍然为O(logN)...原创 2019-06-01 12:24:40 · 613 阅读 · 0 评论 -
软件工程: UML图绘制
软件工程图表形式众多,这里简单记录一下各种图表的特性和基本元素。文章目录交互图顺序图合作图交互图顺序图特性: 顺序图用来描述对象间的动态交互关系。表现对象间消息传递的时间顺序。强调交互时间序,动态。实例:元素:顶端水平轴:参与交互的对象。可以用对象名:类名标示,也可以用对象名或者:类名表示。垂直轴: 表示时间,时间推移方向自上而下。垂直虚线: 表示对象生命线。即...原创 2019-06-08 18:15:08 · 1950 阅读 · 1 评论 -
计算机网络:A day in the life
前言学完计算机网络应用层、运输层、网络层、链路层。书中给出了一个综合性的小例子。当Bob通过校园网访问ww.google.com发生了什么。 感觉是个能够将知识融汇贯通的例子。因此打算花一天时间好好研究一下。文章目录前言问题背景我是谁——DHCPDHCP 请求DHCP ACK小结我要找的人在哪里——DNS, ARP, BGP、RIP、OSPF小结和要找的人建立联系——TCP,BGP、RIP...原创 2019-06-09 17:10:43 · 670 阅读 · 0 评论 -
算法: 状态压缩DP
文章目录什么是状态压缩DP常用位运算例题一: 旅行商问题例题二:Traveling by Stagecoach(Poj 2686)什么是状态压缩DPDP,即动态规划,传统的动态规划都是基于整数的, 比如背包问题。定义状态dp[i][j]dp[i][j]dp[i][j]:背包容量为jjj时前iii件物品的最大收益。这里iii取整数。而对于状态压缩型的DP:动态规划是基于集合的,但是我们使用二进制...原创 2019-06-20 17:22:59 · 1006 阅读 · 1 评论 -
ACM: Poj 2991(计算几何+线段树)
文章目录题目大意思路线段树维护题目大意题目链接。思路将每每一段视作一个向量。由题意: 当将第iii个向量旋转AoA^oAo,则所有的序号>=i>=i>=i的向量也旋转AoA^oAo。将向量i(vx,vu)i(v_x, v_u)i(vx,vu)旋转AoA^oAo的公式可以这样表示#define PI acos(-1)double ang ...原创 2019-06-04 23:34:59 · 276 阅读 · 0 评论 -
算法:轮廓线dp
文章目录什么是轮廓线DP例题一:铺砖问题(Poj 2411)什么是轮廓线DP适用范围: 较窄的棋盘(m×nm \times nm×n中mmm或者nnn较小)。按整行或者整列无法进行转态转移。而把轮廓线作为状态一部分。具体见例题。例题一:铺砖问题(Poj 2411)我们在状压DP中已经介绍过一种整行状态转移的方法,但是这里我们采用轮廓线的方法解决。对每个小格,我们定义0为非覆盖,1为覆盖...原创 2019-06-22 09:02:49 · 4028 阅读 · 0 评论 -
挑战程序设计竞赛: Saruman's Army
文章目录题目大意解题思路代码知识点题目大意解题思路这也是一道贪心问题。贪心策略: 始终选择能覆盖当前还没覆盖最左边点的最远点。根据这一策略,我们需要(1):找到当前还没有覆盖的最左边的点。(2)确定能覆盖到最左边点的最远点。代码#include<iostream>#include<algorithm>using namespace std;con...原创 2019-06-25 08:36:59 · 180 阅读 · 0 评论 -
挑战程序设计竞赛: Fence Repair
文章目录题目大意解题思路代码知识点题目大意解题思路因此我们使用贪心策略构造哈夫曼树,自底向上,每次选取当前最小的两个数构成新节点,直到只剩下一个节点。使用 long long。代码#include <iostream>#include <queue>using namespace std;typedef long long ll;priority...原创 2019-06-25 08:54:00 · 213 阅读 · 0 评论 -
挑战程序设计竞赛:划分数
文章目录题目大意解题思路代码题目大意解题思路此类题一般被称作 nnn的mmm划分。注意这里是划分为 小于等于m 份使用动态规划解决。定义:dp[i][j]dp[i][j]dp[i][j]: jjj的iii划分总数。目标状态: dp[m][n]dp[m][n]dp[m][n].状态转移:错误的想法: 认为求jjj的iii划分时, 从jjj中拿去kkk个,再求j−kj-kj−k的i...原创 2019-06-25 10:05:25 · 209 阅读 · 0 评论 -
挑战程序设计竞赛:多重组合数
文章目录题目大意解题思路代码题目大意解题思路和划分数不同,这道题物品不同,如果我们打算使用动态规划解法,应该很容易能够定义出状态,也很容易得到状态转移方程,难就难在怎样优化这个方程并理解优化后的式子。1、定义: dp[i][j]dp[i][j]dp[i][j]:前iii种物品取出jjj个的取法。2、目标状态: dp[n][m]dp[n][m]dp[n][m]:即所有物品里取出mmm个...原创 2019-06-25 11:16:58 · 177 阅读 · 0 评论 -
挑战程序设计竞赛:Expeition
文章目录题目大意解题思路代码知识点题目大意解题思路将经过的加油站看作加油的一个机会,放入大顶堆,当没油的时候,从大顶堆中取出能够加最多油的机会进行加油。代码#include<iostream>#include<queue>#include<algorithm>using namespace std;const int MAXN = 1...原创 2019-06-25 12:18:11 · 192 阅读 · 0 评论 -
挑战程序设计竞赛: set与map使用
文章目录使用STL中的set完成以下功能。声明`int`类型的集合。插入`5,4,3,2,3`(最后会去重并按从小到大顺序排列)删除`2`判断元素`2,3`是否存在并输出计算元素`3`数量遍历所有元素并输出使用STL中的map完成以下功能声明`int`对`string`类型的字典插入元素(最后会按键值从小到大排序)删除元素并判断元素是否存在遍历所有键值并输出使用STL中的set完成以下功能。声...原创 2019-06-25 14:45:37 · 160 阅读 · 0 评论