创新实训
ttxs69
这个作者很懒,什么都没留下…
展开
-
创新实训(12)-生成式文本摘要之T5
创新实训(12)-生成式文本摘要之T51.简介T5:Text-To-Text-Transfer-Transformer的简称,是Google在2019年提出的一个新的NLP模型。它的基本思想就是Text-to-Text,即NLP的任务基本上都可以归为从文本到文本的处理过程。上图就是论文中的一个图,形象的展示了“Text-To-Text”的过程。2. 模型在论文中,作者做了大量的实验,最终发现还是Encoder-Decoder的模型表现最好,最终就选择了它,所以T5是一个基于Transformer原创 2020-07-01 16:29:38 · 4511 阅读 · 7 评论 -
创新实训(11)-生成式文本摘要之BertAbs
创新实训(11)-生成式文本摘要之BertAbs1.简介这是一个EMNLP2019的paper Text Summarization with Pretrained Encoders 的学习记录2.模型介绍[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kITDC9i6-1593584621882)(https://s1.ax1x.com/2020/07/01/NoqRdH.png)]左边的是原始的Bert模型,右边的是用于文本摘要的Bert模型。主要的区别是在最上原创 2020-07-01 14:27:36 · 1804 阅读 · 0 评论 -
创新实训(10)-提取式文本摘要之bert聚类
创新实训(10)-提取式文本摘要之bert聚类1. 思路使用bert作为预训练模型,利用bert生成的词向量进行下游任务的处理,在这篇论文中使用的是k-means计算词向量分布的重心作为文本摘要的候选句子。可以看作是聚类的一种形式。2.代码分析基于Pytorch的Transformers框架,使用预训练的Bert模型或者是其他的预训练模型生成词向量,然后使用k-means或者expectation-maximization算法进行聚类。2.1 简单使用首先先来测试一下readme里给的例子:f原创 2020-07-01 10:15:28 · 3351 阅读 · 6 评论 -
创新实训(9)-提取式文本摘要之-TextRank
创新实训(9)-提取式文本摘要之-TextRank1.起源TextRank的灵感起源于PageRank算法,PageRank是用于计算网页权重的一个算法。这个算法是基于图的算法,每个网页可以看作式一个图中的节点,如果网页A能够跳转到网页B,那么就有一条从A到B的有向边。这样就可以构造一个有向图。然后使用下面的公式经过多次迭代就可以获得每个网页对应的权重。下面解释每个元素的含义:2. TextRank提取关键词提取关键词和计算网页权重类似,只不过将网页替换成了词语。所以第一步就是分词,每个原创 2020-06-30 11:16:26 · 568 阅读 · 1 评论 -
创新实训(8)-NLP文本摘要学习
创新实训(8)-NLP文本摘要学习1.简介文本摘要,即将一段长文本转换为体现其中心内容的短文本。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要。2.抽取式摘要原创 2020-06-30 09:29:31 · 938 阅读 · 0 评论 -
创新实训(1)-环境搭建
目录环境搭建技术路线环境搭建项目实训第一天,晚上通过腾讯会议和QQ群语音等形式讨论了项目分工,之后进行了开发环境搭建的工作,我主要负责数据爬取和处理。所以使用了python作为开发语言,PyCharm作为IDE。技术路线需要写爬虫爬取大量数据,故采用scrapy框架作为主要技术路线。明天开始学习scrapy的使用。...原创 2020-06-08 18:45:09 · 192 阅读 · 0 评论 -
创新实训(2)-Scrapy 学习
创新实训(2)-Scrapy 学习参考资料:Scrapy 0.25 文档1.Scrapy简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。因为是一个应用程序框架所以不需要从零开始编写代码,只需要根据自己的需求自定义一小部分即可,使用起来非常方便,灵活。2.基本概念Item:是需要自己定义的,需要爬取的数据Spider:定义如何从一个URL返回的页面中提取数据的规则Pipeline:定义处理数据的管道,即如原创 2020-06-23 09:05:01 · 173 阅读 · 0 评论 -
创新实训(3)-Python-pip换源
创新实训(3)-Python-pip换源1.国内的pypi源阿里云:https://mirrors.aliyun.com/pypi/simple/清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/豆瓣:https://pypi.doubanio.com/simple/2. 临时使用以使用豆瓣源安装requests库为例:pip install requests -i https://pypi.doubanio.com/simple/3. 默认使用原创 2020-06-23 09:18:47 · 156 阅读 · 0 评论 -
创新实训(4)-XPath学习
创新实训(4)-XPath学习参考资料:XPath 简介1. 简介XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准2.相关概念2.1 节点(Node)在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档:<?xml version="原创 2020-06-23 09:32:41 · 131 阅读 · 0 评论 -
创新实训(5)-博客园首页爬虫(一)
创新实训(5)-博客园首页爬虫(一)1. 定义Item需要采集标题,url,正文,标签和更新时间。import scrapyclass CnblogItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # 定义需要保存的字段 title = scrapy.Field() url = scrapy.Field() content =原创 2020-06-23 10:07:23 · 192 阅读 · 0 评论 -
创新实训(6)-博客园首页爬虫(二)
创新实训(6)-博客园首页爬虫(二)接着分析博客园的文章。2.6 博文标签获取标签获取就比较麻烦了,一开始我还是和之前一样,直接F12,去找对应的html,但是执行之后发现出错了,找不到。于是我去response里搜索了一下,果然没有。猜测可以是使用ajax另外获取的,于是再次搜索,发现了另外一个请求:查看该请求:发现是个GET请求,URL的规律是https://www.cnblogs.com/ + 用户昵称 + /ajax/CategoriesTags.aspx?blogId= + b原创 2020-06-23 10:52:33 · 147 阅读 · 0 评论 -
创新实训(7)-Jsoup学习
创新实训(7)-Jsoup学习参考链接:Jsoup cookbook1.简介jsoup是类似于python的BeautifulSoup的java版的HTML解析库。支持CSS选择器,支持DOM遍历。2. 输入Jsoup可以接受三种类型的输入,分别是String,URL和FileString:String html = "<html><head><title>First parse</title></head>" + "<原创 2020-06-23 20:27:41 · 169 阅读 · 0 评论