Python
roc_lpy
不争,不露,不显
展开
-
第08讲:解析无所不能的正则表达式
正则表达式是处理字符串的强大工具,它有自己特定的语法结构。有了它,我们就能实现字符串的检索、替换、匹配验证。原创 2020-09-24 17:17:46 · 208 阅读 · 0 评论 -
第07讲:入门首选,Requests 库的基本使用
学习爬虫,最基础的便是模拟浏览器向服务器发出请求,那么我们需要从什么地方做起呢?请求需要我们自己来构造吗?需要关心请求这个数据结构的实现吗?需要了解 HTTP、TCP、IP 层的网络传输通信吗?需要知道服务器的响应和应答原理吗?原创 2020-09-24 14:38:28 · 361 阅读 · 0 评论 -
第06讲:多路加速,了解多进程基本原理
转载于拉勾教育-52讲轻松搞定网络爬虫-崔庆才在上一课时我们了解了多线程的基本概念,同时我们也提到,Python 中的多线程是不能很好发挥多核优势的,如果想要发挥多核优势,最好还是使用多进程。那么本课时我们就来了解下多进程的基本概念和用 Python 实现多进程的方法。1.多进程的含义进程(Process)是具有一定独立功能的程序关于某个数据集合上的一次运行活动,是系统进行资源分配和调度的一个独立单位。顾名思义,多进程就是启用多个进程同时运行。由于进程是线程的集合,而且进程是由一个..原创 2020-09-24 14:25:09 · 332 阅读 · 3 评论 -
第05讲:多路加速,了解多线程基本原理
转载于拉勾教育-52讲轻松搞定网络爬虫-崔庆才我们知道,在一台计算机中,我们可以同时打开许多软件,比如同时浏览网页、听音乐、打字等等,看似非常正常。但仔细想想,为什么计算机可以做到这么多软件同时运行呢?这就涉及到计算机中的两个重要概念:多进程和多线程了。同样,在编写爬虫程序的时候,为了提高爬取效率,我们可能想同时运行多个爬虫任务。这里同样需要涉及多进程和多线程的知识。本课时,我们就先来了解一下多线程的基本原理,以及在 Python 中如何实现多线程。1.多线程的含义说起多线程,就不..原创 2020-09-24 14:17:03 · 151 阅读 · 0 评论 -
第04讲: 基础探究,Session 与 Cookies
转载于拉勾教育-52讲轻松搞定网络爬虫-崔庆才我们在浏览网站的过程中,经常会遇到需要登录的情况,而有些网页只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及 Session 和 Cookies 的相关知识,本节就来揭开它们的神秘面纱。1.静态网页和动态网页在开始介绍它们之前,我们需要先了解一下静态网页和动态网页的概念。这里还是前面的示例代码,..原创 2020-09-24 14:10:40 · 156 阅读 · 0 评论 -
第03讲 原理探究,了解爬虫的基本原理
转载于拉勾教育-52讲轻松搞定网络爬虫-崔庆才1.爬虫概述我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。如果把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。简单来说,爬虫就是获取网页并提取和保存信息的自动化程序,下面概要介绍一下..原创 2020-09-24 14:08:36 · 645 阅读 · 0 评论 -
第02讲:夯实根基,Web 网页基础
转载于拉勾教育-52讲轻松搞定网络爬虫-崔庆才网页的组成首先,我们来了解网页的基本组成,网页可以分为三大部分:HTML、CSS 和 JavaScript。如果把网页比作一个人的话,HTML 相当于骨架,JavaScript 相当于肌肉,CSS 相当于皮肤,三者结合起来才能形成一个完整的网页。下面我们来分别介绍一下这三部分的功能。1.HTMLHTML 是用来描述网页的一种语言,其全称叫作 Hyper Text Markup Language,即超文本标记语言。我们浏览的网页包括文..原创 2020-09-24 14:04:39 · 337 阅读 · 0 评论 -
第01讲:必知必会,掌握 HTTP 基本原理
本课时我们会详细讲解 HTTP 的基本原理,以及了解在浏览器中输入 URL 到获取网页内容之间发生了什么。了解了这些内容,有助于我们进一步掌握爬虫的基本原理。URI 和 URL 首先,我们来了解一下 URI 和 URL,URI 的全称为 Uniform Resource Identifier,即统一资源标志符,URL 的全称为 Universal Resource Locator,即统一资源定位符。举例来说,https://github.com/favicon.ico,它是一个 ...原创 2020-09-24 11:45:56 · 384 阅读 · 0 评论