- 博客(4)
- 收藏
- 关注
原创 requests 爬虫的通用结构——爬取芬兰网站
最近在学习爬虫,发现 requests 这个库在爬取小规模网页的时候,非常好用。用 requests 库爬取了几个芬兰的网站,发现,可以用一套代码结构来爬取这种网页。下面介绍一个爬取 芬兰日常 这个网址的代码结构。为了便于理解,这个网站是找的几个当中,最简单的。如果需要爬取更复杂的网站,可以在上面进行扩展。利用 requests 库写的爬虫,无外乎这几个步骤:1. 解析当前的 url,并找出这个 url 页面内所有需要爬取的子链接。2. 获取每个超链接页面的详细信息3. 保存数据
2019-01-22 00:16:28 2873
原创 Python爬虫——正则表达式基础
正则表达式是处理字符串的一种很强大的工具,我们可以利用正则表达式自由地处理字符串。作为处理字符串的强大工具,正则表达式在处理爬虫的请求内容方面,有着巨大的作用。下面就从 Python 的五个函数开始,来简单介绍一下正则表达式以及它在处理爬虫请求方面的应用。...
2019-01-19 19:14:36 461
原创 五个简单的 Requests 库爬虫实例
本文是中国大学MOOC上的 Python网络爬虫与信息提取 课程中的笔记,是五个基本的爬虫操作,个人觉得其中的方法比较常用,因此记录下来了。
2019-01-18 23:54:51 2504
原创 Requests库基本使用
Requests 库介绍Requests 库是一个非常容易上手的 python 爬虫库,相比于 urllib 库, requests 库非常简洁。下面是我在看视频教程的过程中,记录的一些笔记。get() 方法requests 基本的 get 方法首先来看一下 requests 下 get 方法的基本用法,下面代码输出了 get() 方法返回值的类型和状态码(状态码为 200 表示请求成功)...
2019-01-17 21:54:55 9050
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人