2019年06月_von Neumann

11月 09月 08月 07月 06月 05月 04月 03月

原创 Python爬虫从入门到精通——高级框架Selenium的使用（二）：节点操作

分类目录：《Python爬虫从入门到精通》总目录在《高级框架Selenium的使用（一）：基础知识》中我们了解了利用Selenium框架声明浏览器对象、访问页面等操作。事实上，Selenium可以同解析库XPath、BeautifulSoup、pyquery等等一样，对HTML进行解析。除此之外，Selenium还可以驱动浏览器完成各种操作，本文就阐述下Selenium的节点操作，后续的文章会继...

2019-06-26 18:25:17 11843

原创 Python爬虫从入门到精通——高级框架Selenium的使用（一）：基础知识

分类目录：《Python爬虫从入门到精通》总目录在《Ajax数据爬取》中，我们了解了Ajax的分析和抓取方式，这其实也是JavaScript动态渲染的页面的一种情形，通过直接分析Ajax，我们仍然可以借助requests或urllib来实现数据爬取。不过JavaScript动态渲染的页面不止Ajax这一种，很多网站的分页部分是由JavaScript生成的，并非原始HTML代码，这其中并不包含A...

2019-06-26 16:54:16 12619

原创 Python爬虫从入门到精通——爬虫实战：爬取今日头条图片新闻

分类目录：《Python爬虫从入门到精通》总目录本文为实战篇，需提前学习Python爬虫从入门到精通中《基本库requests的使用》和《Ajax数据爬取（一）：基本原理》、《Ajax数据爬取（二）：分析方法》和《Ajax数据爬取（三）：结果提取》的内容。在抓取之前，首先要分析抓取的逻辑。打开今日头条的首页，并在右上角有搜索入口搜索“图片新闻”。这时打开开发者工具，查看所有的网络请求。首先...

2019-06-24 20:45:22 17297 2

原创 Python爬虫从入门到精通——爬虫实战：爬取新浪微博内容

分类目录：《Python爬虫从入门到精通》总目录本文为实战篇，需提前学习《Python爬虫从入门到精通》中基本库requests的使用和Ajax数据爬取（一）：基本原理、Ajax数据爬取（二）：分析方法和Ajax数据爬取（三）：结果提取的内容。这里我们用程序模拟这些Ajax请求，将我的前10页微博全部爬取下来。首先，定义一个方法来获取每次请求的结果。在请求时，page是一个可变参数，所以我们......

2019-06-24 16:19:51 26467 11

原创 Python爬虫从入门到精通——Ajax数据爬取（三）：结果提取

分类目录：《Python爬虫从入门到精通》总目录这里还以《Python爬虫从入门到精通——Ajax数据爬取（一）：基本原理》中的微博为例，接下来用Python来模拟这些Ajax请求，把马云微博内容爬取下来。分析请求打开Ajax的XHR过滤器，然后一直滑动页面以加载新的微博内容。可以看到，会不断有Ajax请求发出。选定其中一个请求，分析它的参数信息。点击该请求，进入详情页面。可以发现，这...

2019-06-24 15:58:35 17472 2

原创 Python爬虫从入门到精通——Ajax数据爬取（二）：分析方法

分类目录：《Python爬虫从入门到精通》总目录这里还以《Python爬虫从入门到精通——Ajax数据爬取（一）：基本原理》中的微博为例，我们知道拖动刷新的内容由Ajax加载，而且页面的URL没有变化。查看请求这里还需要借助浏览器的开发者工具，下面以Chrome浏览器为例来介绍。首先，用Chrome浏览器打开微博的链接，随后在页面中点击鼠标右键，从弹出的快捷菜单中选择“检查”选项，此时便会弹...

2019-06-24 14:53:33 16000

原创 Python爬虫从入门到精通——Ajax数据爬取（一）：基本原理

分类目录：《Python爬虫从入门到精通》总目录有时候我们在用requests抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档，而浏览器中的页面则是经过JavaScript处理数据后生成的结果，这些数据的来源有多种，可能是通过Ajax加载的，可能是包含在HT...

2019-06-24 14:24:49 16632

原创算法设计与分析——算法学基础（三）：渐进记号

分类目录：《算法设计与分析》总目录第《算法学基础（二）：分析算法》中定义了算法运行时间的增长量级简单地刻画了算法效率，并且还允许我们比较可选算法的相对性能。一旦输入规模nnn变得足够大，最坏情况运行时间为Θ(nlg⁡n)\Theta(n\lg{n})Θ(nlgn)的归并排序将战胜最坏情况运行时间为Θ(n2)\Theta(n^2)Θ(n2)的插入排序。正如我们在分析插入排序时所做的工作，虽然有时我...

2019-06-19 21:00:53 20827

原创算法设计与分析——分治策略（一）：基础知识

分类目录：《算法设计与分析》总目录许多有用的算法在结构上是递归的：为了解决一个给定的问题，算法一次或多次递归地调用其自身以解决紧密相关的若干子问题。这些算法典型地遵循分治法的思想：将原问题分解为几个规模较小但类似于原问题的子问题，递归地求解这些子问题，然后再合并这些子问题的解来建立原问题的解。分治模式在每层递归时都有三个步骤：分解原问题为若干子问题，这些子问题是原问题的规模较小的实例。解...

2019-06-13 16:29:47 14836

原创算法设计与分析——排序算法（二）：归并排序

中玩扑克牌的例子，假设桌上有两堆牌面朝上的牌，每堆都已排序，最小的牌在顶上。我们的基本步骤包括在牌面朝上的两堆牌的顶上两张牌中选取较小的一张，将该牌从其堆中移开（该堆的顶上将显露一张新牌）并牌面朝下地将该牌放置到输出堆。当待排序的序列长度为1时，递归“开始回升”，在这种情况下不要做任何工作，因为长度为1的每个序列都已排好序。我们必须证明循环的第一次迭代之前该循环不变式成立，该循环的每次迭代保持该不变式，并且循环终止时，该不变式提供了一种有用的性质来证明正确性。个基本步骤：在开始循环的每次迭代时，子数组。

2019-06-11 20:58:02 23248 5

原创算法设计与分析——算法学基础（二）：分析算法

分类目录：《算法设计与分析》总目录分析算法的结果意味着预测算法需要的资源。虽然有时我们主要关心像内存、通信带宽或计算机硬件这类资源，但是通常我们想度量的是计算时间。一般来说，通过分析求解某个问题的几种候选算法，我们可以选出一种最有效的算法。这种分析可能指出不止一个可行的候选算法，但是在这个过程中，我们往往可以抛弃几个较差的算法。在能够分析一个算法之前，我们必须有一个要使用的实现技术的模型，包括...

2019-06-11 15:56:41 13078

原创算法设计与分析——排序算法（一）：插入排序

分类目录：《算法设计与分析》总目录插入排序对于少量元素的排序是一个有效的算法。插入排序的工作方式像许多人排序一手扑克牌。开始时，我们的左手为空并且桌子上的牌面向下。然后，我们每次从桌子上拿走一张牌并将它插入手中正确的位置。为了找到一张牌的正确位置，我们从右到左将它与已在手中的每张牌进行比较，而拿在手上的牌总是排序好的。对于插入排序，我们将其伪代码过程命名为INSERTION-SORT，其中的参...

2019-06-10 21:54:07 16658

原创算法设计与分析——算法学基础（一）：算法学概述

分类目录：《算法设计与分析》总目录算法定义的是计算过程，该过程取某个值或值的集合作为输入并产生某个值或值的集合作为输出。这样算法就是把输入转换成输出的计算步骤的一个序列。我们也可以把算法看成是用于求解良说明的计算问题的工具。一般来说，问题陈述说明了期望的输入/输出关系。算法则描述一个特定的计算过程来实现该输入/输出关系。例如，我们可能需要把一个数列排成非递减序。实际上，这个问题经常出现，并且为...

2019-06-10 19:34:17 13442

原创 Python爬虫从入门到精通——解析库pyquery的使用

分类目录：《Python爬虫从入门到精通》总目录在《解析库Beautiful Soup的使用》中，我们介绍了Beautiful Soup的用法，它是一个非常强大的网页解析库，但如果你对Web有所涉及，如果你比较喜欢用CSS选择器，如果你对jQuery有所了解，那么这里有一个更适合你的解析库——pyquery。pyquery初始化像Beautiful Soup一样，初始化pyquery的时候，...

2019-06-06 15:05:34 12665

原创 Python爬虫从入门到精通——解析库Beautiful Soup的使用

分类目录：《Python爬虫从入门到精通》总目录在《解析库re的使用：正则表达式》中介绍了正则表达式的相关用法，但是一旦正则表达式写的有问题，得到的可能就不是我们想要的结果了。而且对于一个网页来说，都有一定的特殊结构和层级关系，而且很多节点都有id或class来作区分，所以我们也可以借助它们的结构和属性来提取。本文就来介绍一个强大的解析工具Beautiful Soup，它借助网页的结构和属性等特...

2019-06-03 19:41:12 14914

思维导图源文件《预训练模型总览》

该文件为《预训练模型总览》思维导图源文件，可自行编辑并输出相应图片或自行学习保存使用，详细内容可以参考：文章《自然语言处理从入门到应用——预训练模型总览》，文章链接：https://machinelearning.blog.csdn.net/article/details/131404053 从大量无标注数据中进行预训练使许多自然语言处理任务获得显著的性能提升。总的来看，预训练模型的优势包括： - 在庞大的无标注数据上进行预训练可以获取更通用的语言表示，并有利于下游任务 - 为模型提供了一个更好的初始化参数，在目标任务上具备更好的泛化性能、并加速收敛 - 是一种有效的正则化手段，避免在小数据集上过拟合，而一个随机初始化的深层模型容易对小数据集过拟合该思维导图源文件就是各种预训练模型的思维导图，其分别按照词嵌入（Word Embedding）方式分为静态词向量（Static Word Embedding）和动态词向量（Dynamic Word Embedding）方式分类、按照监督学习和自监督学习方式进行分类、按照拓展能力等分类方式展现，用户可以自行编辑修改。

2023-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人