自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 创新实训(12)-生成式文本摘要之T5

创新实训(12)-生成式文本摘要之T51.简介T5:Text-To-Text-Transfer-Transformer的简称,是Google在2019年提出的一个新的NLP模型。它的基本思想就是Text-to-Text,即NLP的任务基本上都可以归为从文本到文本的处理过程。上图就是论文中的一个图,形象的展示了“Text-To-Text”的过程。2. 模型在论文中,作者做了大量的实验,最终发现还是Encoder-Decoder的模型表现最好,最终就选择了它,所以T5是一个基于Transformer

2020-07-01 16:29:38 4296 7

原创 创新实训(11)-生成式文本摘要之BertAbs

创新实训(11)-生成式文本摘要之BertAbs1.简介这是一个EMNLP2019的paper Text Summarization with Pretrained Encoders 的学习记录2.模型介绍[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kITDC9i6-1593584621882)(https://s1.ax1x.com/2020/07/01/NoqRdH.png)]左边的是原始的Bert模型,右边的是用于文本摘要的Bert模型。主要的区别是在最上

2020-07-01 14:27:36 1757

原创 创新实训(10)-提取式文本摘要之bert聚类

创新实训(10)-提取式文本摘要之bert聚类1. 思路使用bert作为预训练模型,利用bert生成的词向量进行下游任务的处理,在这篇论文中使用的是k-means计算词向量分布的重心作为文本摘要的候选句子。可以看作是聚类的一种形式。2.代码分析基于Pytorch的Transformers框架,使用预训练的Bert模型或者是其他的预训练模型生成词向量,然后使用k-means或者expectation-maximization算法进行聚类。2.1 简单使用首先先来测试一下readme里给的例子:f

2020-07-01 10:15:28 3241 6

原创 创新实训(9)-提取式文本摘要之-TextRank

创新实训(9)-提取式文本摘要之-TextRank1.起源TextRank的灵感起源于PageRank算法,PageRank是用于计算网页权重的一个算法。这个算法是基于图的算法,每个网页可以看作式一个图中的节点,如果网页A能够跳转到网页B,那么就有一条从A到B的有向边。这样就可以构造一个有向图。然后使用下面的公式经过多次迭代就可以获得每个网页对应的权重。下面解释每个元素的含义:2. TextRank提取关键词提取关键词和计算网页权重类似,只不过将网页替换成了词语。所以第一步就是分词,每个

2020-06-30 11:16:26 543 1

原创 创新实训(8)-NLP文本摘要学习

创新实训(8)-NLP文本摘要学习1.简介文本摘要,即将一段长文本转换为体现其中心内容的短文本。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要。2.抽取式摘要

2020-06-30 09:29:31 901

原创 创新实训(7)-Jsoup学习

创新实训(7)-Jsoup学习参考链接:Jsoup cookbook1.简介jsoup是类似于python的BeautifulSoup的java版的HTML解析库。支持CSS选择器,支持DOM遍历。2. 输入Jsoup可以接受三种类型的输入,分别是String,URL和FileString:String html = "<html><head><title>First parse</title></head>" + "&lt

2020-06-23 20:27:41 156

原创 创新实训(6)-博客园首页爬虫(二)

创新实训(6)-博客园首页爬虫(二)接着分析博客园的文章。2.6 博文标签获取标签获取就比较麻烦了,一开始我还是和之前一样,直接F12,去找对应的html,但是执行之后发现出错了,找不到。于是我去response里搜索了一下,果然没有。猜测可以是使用ajax另外获取的,于是再次搜索,发现了另外一个请求:查看该请求:发现是个GET请求,URL的规律是https://www.cnblogs.com/ + 用户昵称 + /ajax/CategoriesTags.aspx?blogId= + b

2020-06-23 10:52:33 116

原创 创新实训(5)-博客园首页爬虫(一)

创新实训(5)-博客园首页爬虫(一)1. 定义Item需要采集标题,url,正文,标签和更新时间。import scrapyclass CnblogItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # 定义需要保存的字段 title = scrapy.Field() url = scrapy.Field() content =

2020-06-23 10:07:23 163

原创 创新实训(4)-XPath学习

创新实训(4)-XPath学习参考资料:XPath 简介1. 简介XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准2.相关概念2.1 节点(Node)在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档:<?xml version="

2020-06-23 09:32:41 116

原创 创新实训(3)-Python-pip换源

创新实训(3)-Python-pip换源1.国内的pypi源阿里云:https://mirrors.aliyun.com/pypi/simple/清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/豆瓣:https://pypi.doubanio.com/simple/2. 临时使用以使用豆瓣源安装requests库为例:pip install requests -i https://pypi.doubanio.com/simple/3. 默认使用

2020-06-23 09:18:47 143

原创 创新实训(2)-Scrapy 学习

创新实训(2)-Scrapy 学习参考资料:Scrapy 0.25 文档1.Scrapy简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。因为是一个应用程序框架所以不需要从零开始编写代码,只需要根据自己的需求自定义一小部分即可,使用起来非常方便,灵活。2.基本概念Item:是需要自己定义的,需要爬取的数据Spider:定义如何从一个URL返回的页面中提取数据的规则Pipeline:定义处理数据的管道,即如

2020-06-23 09:05:01 156

原创 创新实训(1)-环境搭建

目录环境搭建技术路线环境搭建项目实训第一天,晚上通过腾讯会议和QQ群语音等形式讨论了项目分工,之后进行了开发环境搭建的工作,我主要负责数据爬取和处理。所以使用了python作为开发语言,PyCharm作为IDE。技术路线需要写爬虫爬取大量数据,故采用scrapy框架作为主要技术路线。明天开始学习scrapy的使用。...

2020-06-08 18:45:09 179

原创 C++箱子排序

文章目录箱子排序实现基本思想两种实现第一种实现:第二种实现箱子排序实现把每个箱子用一个链表实现。在进行节点分配之前,每个箱子都是空的。基本思想1.从与排序链表的头部开始,逐个删除节点,并把它放到合适的箱子链表的头部2.收集并连接每个箱子中的节点,产生有序的链表两种实现第一种实现:只使用一个箱子数组//range 是分数的范围void BinSort(Chain&lt;Nod...

2018-12-20 18:42:27 500

原创 2018-DDCTF-writeup

杂项题目如下:d4e8e1f4a0f7e1f3a0e6e1f3f4a1a0d4e8e5a0e6ece1e7a0e9f3baa0c4c4c3d4c6fbb9e1e6b3e3b9e4b3b7b7e2b6b1e4b2b6b9e2b1b1b3b3b7e6b3b3b0e3b9b3b5e6fd       我最开始认为应该是十六进制直接转字母,可是不可能这么简单。所以我就想把前后两个d去掉...

2018-12-20 18:26:44 357

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除