2019年01月_rocketeerLi

12月 10月 06月 05月 04月 02月 01月

原创 requests 爬虫的通用结构——爬取芬兰网站

最近在学习爬虫，发现 requests 这个库在爬取小规模网页的时候，非常好用。用 requests 库爬取了几个芬兰的网站，发现，可以用一套代码结构来爬取这种网页。下面介绍一个爬取芬兰日常这个网址的代码结构。为了便于理解，这个网站是找的几个当中，最简单的。如果需要爬取更复杂的网站，可以在上面进行扩展。利用 requests 库写的爬虫，无外乎这几个步骤：1. 解析当前的 url，并找出这个 url 页面内所有需要爬取的子链接。2. 获取每个超链接页面的详细信息3. 保存数据

2019-01-22 00:16:28 2873

原创 Python爬虫——正则表达式基础

正则表达式是处理字符串的一种很强大的工具，我们可以利用正则表达式自由地处理字符串。作为处理字符串的强大工具，正则表达式在处理爬虫的请求内容方面，有着巨大的作用。下面就从 Python 的五个函数开始，来简单介绍一下正则表达式以及它在处理爬虫请求方面的应用。...

2019-01-19 19:14:36 461

原创五个简单的 Requests 库爬虫实例

本文是中国大学MOOC上的 Python网络爬虫与信息提取课程中的笔记，是五个基本的爬虫操作，个人觉得其中的方法比较常用，因此记录下来了。

2019-01-18 23:54:51 2504

原创 Requests库基本使用

Requests 库介绍Requests 库是一个非常容易上手的 python 爬虫库，相比于 urllib 库， requests 库非常简洁。下面是我在看视频教程的过程中，记录的一些笔记。get() 方法requests 基本的 get 方法首先来看一下 requests 下 get 方法的基本用法，下面代码输出了 get() 方法返回值的类型和状态码（状态码为 200 表示请求成功）...

2019-01-17 21:54:55 9050

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 requests 爬虫的通用结构——爬取芬兰网站

原创 Python爬虫——正则表达式基础

原创 五个简单的 Requests 库爬虫实例

原创 Requests库基本使用

空空如也

空空如也

原创五个简单的 Requests 库爬虫实例