2020年06月_ttxs69

原创创新实训(9)-提取式文本摘要之-TextRank

创新实训(9)-提取式文本摘要之-TextRank 1.起源 TextRank的灵感起源于PageRank算法，PageRank是用于计算网页权重的一个算法。这个算法是基于图的算法，每个网页可以看作式一个图中的节点，如果网页A能够跳转到网页B，那么就有一条从A到B的有向边。这样就可以构造一个有向图。然后使用下面的公式经过多次迭代就可以获得每个网页对应的权重。下面解释每个元素的含义： 2. TextRank提取关键词提取关键词和计算网页权重类似，只不过将网页替换成了词语。所以第一步就是分词，每个

2020-06-30 11:16:26 567 1

原创创新实训(8)-NLP文本摘要学习

创新实训(8)-NLP文本摘要学习 1.简介文本摘要，即将一段长文本转换为体现其中心内容的短文本。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要，多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文。生成式摘要根据原文，允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要。 2.抽取式摘要

2020-06-30 09:29:31 937

原创创新实训(7)-Jsoup学习

创新实训(7)-Jsoup学习参考链接：Jsoup cookbook 1.简介 jsoup是类似于python的BeautifulSoup的java版的HTML解析库。支持CSS选择器，支持DOM遍历。 2. 输入 Jsoup可以接受三种类型的输入，分别是String，URL和File String： String html = "<html><head><title>First parse</title></head>" + "&lt

2020-06-23 20:27:41 169

原创创新实训(6)-博客园首页爬虫(二)

创新实训(6)-博客园首页爬虫(二) 接着分析博客园的文章。 2.6 博文标签获取标签获取就比较麻烦了，一开始我还是和之前一样，直接F12，去找对应的html，但是执行之后发现出错了，找不到。于是我去response里搜索了一下，果然没有。猜测可以是使用ajax另外获取的，于是再次搜索，发现了另外一个请求：查看该请求：发现是个GET请求，URL的规律是 https://www.cnblogs.com/ + 用户昵称 + /ajax/CategoriesTags.aspx?blogId= + b

2020-06-23 10:52:33 147

原创创新实训(5)-博客园首页爬虫(一)

创新实训(5)-博客园首页爬虫(一) 1. 定义Item 需要采集标题，url，正文，标签和更新时间。 import scrapy class CnblogItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # 定义需要保存的字段 title = scrapy.Field() url = scrapy.Field() content =

2020-06-23 10:07:23 192

原创创新实训(4)-XPath学习

创新实训(4)-XPath学习参考资料：XPath 简介 1. 简介 XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准 2.相关概念 2.1 节点(Node) 在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档： <?xml version="

2020-06-23 09:32:41 131

原创创新实训(3)-Python-pip换源

创新实训(3)-Python-pip换源 1.国内的pypi源阿里云：https://mirrors.aliyun.com/pypi/simple/ 清华大学：https://pypi.tuna.tsinghua.edu.cn/simple/ 豆瓣：https://pypi.doubanio.com/simple/ 2. 临时使用以使用豆瓣源安装requests库为例： pip install requests -i https://pypi.doubanio.com/simple/ 3. 默认使用

2020-06-23 09:18:47 155

原创创新实训(2)-Scrapy 学习

创新实训(2)-Scrapy 学习参考资料：Scrapy 0.25 文档 1.Scrapy简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。因为是一个应用程序框架所以不需要从零开始编写代码，只需要根据自己的需求自定义一小部分即可，使用起来非常方便，灵活。 2.基本概念 Item:是需要自己定义的，需要爬取的数据 Spider：定义如何从一个URL返回的页面中提取数据的规则 Pipeline：定义处理数据的管道，即如

2020-06-23 09:05:01 171

原创创新实训(1)-环境搭建

目录环境搭建技术路线环境搭建项目实训第一天，晚上通过腾讯会议和QQ群语音等形式讨论了项目分工，之后进行了开发环境搭建的工作，我主要负责数据爬取和处理。所以使用了python作为开发语言，PyCharm作为IDE。技术路线需要写爬虫爬取大量数据，故采用scrapy框架作为主要技术路线。明天开始学习scrapy的使用。 ...

2020-06-08 18:45:09 190

ttxs69的博客