自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 创新实训(9)-提取式文本摘要之-TextRank

创新实训(9)-提取式文本摘要之-TextRank 1.起源 TextRank的灵感起源于PageRank算法,PageRank是用于计算网页权重的一个算法。 这个算法是基于图的算法,每个网页可以看作式一个图中的节点,如果网页A能够跳转到网页B,那么就有一条从A到B的有向边。这样就可以构造一个有向图。 然后使用下面的公式经过多次迭代就可以获得每个网页对应的权重。 下面解释每个元素的含义: 2. TextRank提取关键词 提取关键词和计算网页权重类似,只不过将网页替换成了词语。 所以第一步就是分词,每个

2020-06-30 11:16:26 567 1

原创 创新实训(8)-NLP文本摘要学习

创新实训(8)-NLP文本摘要学习 1.简介 文本摘要,即将一段长文本转换为体现其中心内容的短文本。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要。 2.抽取式摘要

2020-06-30 09:29:31 937

原创 创新实训(7)-Jsoup学习

创新实训(7)-Jsoup学习 参考链接:Jsoup cookbook 1.简介 jsoup是类似于python的BeautifulSoup的java版的HTML解析库。 支持CSS选择器,支持DOM遍历。 2. 输入 Jsoup可以接受三种类型的输入,分别是String,URL和File String: String html = "<html><head><title>First parse</title></head>" + "&lt

2020-06-23 20:27:41 169

原创 创新实训(6)-博客园首页爬虫(二)

创新实训(6)-博客园首页爬虫(二) 接着分析博客园的文章。 2.6 博文标签获取 标签获取就比较麻烦了,一开始我还是和之前一样,直接F12,去找对应的html,但是执行之后发现出错了,找不到。于是我去response里搜索了一下,果然没有。 猜测可以是使用ajax另外获取的,于是再次搜索,发现了另外一个请求: 查看该请求: 发现是个GET请求,URL的规律是 https://www.cnblogs.com/ + 用户昵称 + /ajax/CategoriesTags.aspx?blogId= + b

2020-06-23 10:52:33 147

原创 创新实训(5)-博客园首页爬虫(一)

创新实训(5)-博客园首页爬虫(一) 1. 定义Item 需要采集标题,url,正文,标签和更新时间。 import scrapy class CnblogItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # 定义需要保存的字段 title = scrapy.Field() url = scrapy.Field() content =

2020-06-23 10:07:23 192

原创 创新实训(4)-XPath学习

创新实训(4)-XPath学习 参考资料:XPath 简介 1. 简介 XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准 2.相关概念 2.1 节点(Node) 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。 请看下面这个 XML 文档: <?xml version="

2020-06-23 09:32:41 131

原创 创新实训(3)-Python-pip换源

创新实训(3)-Python-pip换源 1.国内的pypi源 阿里云:https://mirrors.aliyun.com/pypi/simple/ 清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/ 豆瓣:https://pypi.doubanio.com/simple/ 2. 临时使用 以使用豆瓣源安装requests库为例: pip install requests -i https://pypi.doubanio.com/simple/ 3. 默认使用

2020-06-23 09:18:47 155

原创 创新实训(2)-Scrapy 学习

创新实训(2)-Scrapy 学习 参考资料:Scrapy 0.25 文档 1.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。因为是一个应用程序框架所以不需要从零开始编写代码,只需要根据自己的需求自定义一小部分即可,使用起来非常方便,灵活。 2.基本概念 Item:是需要自己定义的,需要爬取的数据 Spider:定义如何从一个URL返回的页面中提取数据的规则 Pipeline:定义处理数据的管道,即如

2020-06-23 09:05:01 171

原创 创新实训(1)-环境搭建

目录环境搭建技术路线 环境搭建 项目实训第一天,晚上通过腾讯会议和QQ群语音等形式讨论了项目分工,之后进行了开发环境搭建的工作,我主要负责数据爬取和处理。所以使用了python作为开发语言,PyCharm作为IDE。 技术路线 需要写爬虫爬取大量数据,故采用scrapy框架作为主要技术路线。明天开始学习scrapy的使用。 ...

2020-06-08 18:45:09 190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除