ttxs69-CSDN博客

原创创新实训(12)-生成式文本摘要之T5

创新实训(12)-生成式文本摘要之T51.简介T5：Text-To-Text-Transfer-Transformer的简称，是Google在2019年提出的一个新的NLP模型。它的基本思想就是Text-to-Text，即NLP的任务基本上都可以归为从文本到文本的处理过程。上图就是论文中的一个图，形象的展示了“Text-To-Text”的过程。2. 模型在论文中，作者做了大量的实验，最终发现还是Encoder-Decoder的模型表现最好，最终就选择了它，所以T5是一个基于Transformer

2020-07-01 16:29:38 4296 7

原创创新实训(11)-生成式文本摘要之BertAbs

创新实训(11)-生成式文本摘要之BertAbs1.简介这是一个EMNLP2019的paper Text Summarization with Pretrained Encoders 的学习记录2.模型介绍[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kITDC9i6-1593584621882)(https://s1.ax1x.com/2020/07/01/NoqRdH.png)]左边的是原始的Bert模型，右边的是用于文本摘要的Bert模型。主要的区别是在最上

2020-07-01 14:27:36 1757

原创创新实训(10)-提取式文本摘要之bert聚类

创新实训(10)-提取式文本摘要之bert聚类1. 思路使用bert作为预训练模型，利用bert生成的词向量进行下游任务的处理，在这篇论文中使用的是k-means计算词向量分布的重心作为文本摘要的候选句子。可以看作是聚类的一种形式。2.代码分析基于Pytorch的Transformers框架，使用预训练的Bert模型或者是其他的预训练模型生成词向量，然后使用k-means或者expectation-maximization算法进行聚类。2.1 简单使用首先先来测试一下readme里给的例子：f

2020-07-01 10:15:28 3241 6

原创创新实训(9)-提取式文本摘要之-TextRank

创新实训(9)-提取式文本摘要之-TextRank1.起源TextRank的灵感起源于PageRank算法，PageRank是用于计算网页权重的一个算法。这个算法是基于图的算法，每个网页可以看作式一个图中的节点，如果网页A能够跳转到网页B，那么就有一条从A到B的有向边。这样就可以构造一个有向图。然后使用下面的公式经过多次迭代就可以获得每个网页对应的权重。下面解释每个元素的含义：2. TextRank提取关键词提取关键词和计算网页权重类似，只不过将网页替换成了词语。所以第一步就是分词，每个

2020-06-30 11:16:26 543 1

原创创新实训(8)-NLP文本摘要学习

创新实训(8)-NLP文本摘要学习1.简介文本摘要，即将一段长文本转换为体现其中心内容的短文本。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要，多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文。生成式摘要根据原文，允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要。2.抽取式摘要

2020-06-30 09:29:31 901

原创创新实训(7)-Jsoup学习

创新实训(7)-Jsoup学习参考链接：Jsoup cookbook1.简介jsoup是类似于python的BeautifulSoup的java版的HTML解析库。支持CSS选择器，支持DOM遍历。2. 输入Jsoup可以接受三种类型的输入，分别是String，URL和FileString：String html = "<html><head><title>First parse</title></head>" + "&lt

2020-06-23 20:27:41 156

原创创新实训(6)-博客园首页爬虫(二)

创新实训(6)-博客园首页爬虫(二)接着分析博客园的文章。2.6 博文标签获取标签获取就比较麻烦了，一开始我还是和之前一样，直接F12，去找对应的html，但是执行之后发现出错了，找不到。于是我去response里搜索了一下，果然没有。猜测可以是使用ajax另外获取的，于是再次搜索，发现了另外一个请求：查看该请求：发现是个GET请求，URL的规律是https://www.cnblogs.com/ + 用户昵称 + /ajax/CategoriesTags.aspx?blogId= + b

2020-06-23 10:52:33 116

原创创新实训(5)-博客园首页爬虫(一)

创新实训(5)-博客园首页爬虫(一)1. 定义Item需要采集标题，url，正文，标签和更新时间。import scrapyclass CnblogItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # 定义需要保存的字段 title = scrapy.Field() url = scrapy.Field() content =

2020-06-23 10:07:23 163

原创创新实训(4)-XPath学习

创新实训(4)-XPath学习参考资料：XPath 简介1. 简介XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准2.相关概念2.1 节点(Node)在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档：<?xml version="

2020-06-23 09:32:41 116

原创创新实训(3)-Python-pip换源

创新实训(3)-Python-pip换源1.国内的pypi源阿里云：https://mirrors.aliyun.com/pypi/simple/清华大学：https://pypi.tuna.tsinghua.edu.cn/simple/豆瓣：https://pypi.doubanio.com/simple/2. 临时使用以使用豆瓣源安装requests库为例：pip install requests -i https://pypi.doubanio.com/simple/3. 默认使用

2020-06-23 09:18:47 143

原创创新实训(2)-Scrapy 学习

创新实训(2)-Scrapy 学习参考资料：Scrapy 0.25 文档1.Scrapy简介Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。因为是一个应用程序框架所以不需要从零开始编写代码，只需要根据自己的需求自定义一小部分即可，使用起来非常方便，灵活。2.基本概念Item:是需要自己定义的，需要爬取的数据Spider：定义如何从一个URL返回的页面中提取数据的规则Pipeline：定义处理数据的管道，即如

2020-06-23 09:05:01 156

原创创新实训(1)-环境搭建

目录环境搭建技术路线环境搭建项目实训第一天，晚上通过腾讯会议和QQ群语音等形式讨论了项目分工，之后进行了开发环境搭建的工作，我主要负责数据爬取和处理。所以使用了python作为开发语言，PyCharm作为IDE。技术路线需要写爬虫爬取大量数据，故采用scrapy框架作为主要技术路线。明天开始学习scrapy的使用。...

2020-06-08 18:45:09 179

原创 C++箱子排序

文章目录箱子排序实现基本思想两种实现第一种实现：第二种实现箱子排序实现把每个箱子用一个链表实现。在进行节点分配之前，每个箱子都是空的。基本思想1.从与排序链表的头部开始，逐个删除节点，并把它放到合适的箱子链表的头部2.收集并连接每个箱子中的节点，产生有序的链表两种实现第一种实现：只使用一个箱子数组//range 是分数的范围void BinSort(Chain<Nod...

2018-12-20 18:42:27 500

原创 2018-DDCTF-writeup

杂项题目如下：d4e8e1f4a0f7e1f3a0e6e1f3f4a1a0d4e8e5a0e6ece1e7a0e9f3baa0c4c4c3d4c6fbb9e1e6b3e3b9e4b3b7b7e2b6b1e4b2b6b9e2b1b1b3b3b7e6b3b3b0e3b9b3b5e6fd 我最开始认为应该是十六进制直接转字母，可是不可能这么简单。所以我就想把前后两个d去掉...

2018-12-20 18:26:44 357

ttxs69的博客