爬虫
rocketeerLi
自由地努力着
展开
-
IP 代理池的搭建(笔记)
前言去年实习的时候做过爬虫,但是理解的很浅,所以今年趁着在家的时候,又打算认真地学习一下。刚好看到崔庆才老师拉勾网的教程 52讲轻松搞定网络爬虫,于是就跟着学了一下。到代理池这时,由于一些基础东西没整明白,耽误了好一阵,好在整个项目代码量不大。断断续续的,终于在今天对着 github 敲完了一遍,有的地方做了一下小改动。在这里记录一下搭建过程和最后结果。具体参考崔老师的博客:[Python3网络爬虫开发实战] 9.2-代理池的维护 和项目地址:ProxyPool代理池介绍爬虫的反爬方法有很多,最简单原创 2020-05-09 20:30:42 · 813 阅读 · 0 评论 -
Requests库基本使用
Requests 库介绍Requests 库是一个非常容易上手的 python 爬虫库,相比于 urllib 库, requests 库非常简洁。下面是我在看视频教程的过程中,记录的一些笔记。get() 方法requests 基本的 get 方法首先来看一下 requests 下 get 方法的基本用法,下面代码输出了 get() 方法返回值的类型和状态码(状态码为 200 表示请求成功)...原创 2019-01-17 21:54:55 · 9022 阅读 · 0 评论 -
五个简单的 Requests 库爬虫实例
本文是中国大学MOOC上的 Python网络爬虫与信息提取 课程中的笔记,是五个基本的爬虫操作,个人觉得其中的方法比较常用,因此记录下来了。原创 2019-01-18 23:54:51 · 2469 阅读 · 0 评论 -
Python爬虫——正则表达式基础
正则表达式是处理字符串的一种很强大的工具,我们可以利用正则表达式自由地处理字符串。作为处理字符串的强大工具,正则表达式在处理爬虫的请求内容方面,有着巨大的作用。下面就从 Python 的五个函数开始,来简单介绍一下正则表达式以及它在处理爬虫请求方面的应用。...原创 2019-01-19 19:14:36 · 448 阅读 · 0 评论 -
requests 爬虫的通用结构——爬取芬兰网站
最近在学习爬虫,发现 requests 这个库在爬取小规模网页的时候,非常好用。用 requests 库爬取了几个芬兰的网站,发现,可以用一套代码结构来爬取这种网页。下面介绍一个爬取 芬兰日常 这个网址的代码结构。为了便于理解,这个网站是找的几个当中,最简单的。如果需要爬取更复杂的网站,可以在上面进行扩展。利用 requests 库写的爬虫,无外乎这几个步骤:1. 解析当前的 url,并找出这个 url 页面内所有需要爬取的子链接。2. 获取每个超链接页面的详细信息3. 保存数据原创 2019-01-22 00:16:28 · 2860 阅读 · 0 评论