自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

落队的飞行兵

飞行火箭兵在探索世界...

  • 博客(4)
  • 收藏
  • 关注

原创 requests 爬虫的通用结构——爬取芬兰网站

最近在学习爬虫,发现 requests 这个库在爬取小规模网页的时候,非常好用。用 requests 库爬取了几个芬兰的网站,发现,可以用一套代码结构来爬取这种网页。下面介绍一个爬取 芬兰日常 这个网址的代码结构。为了便于理解,这个网站是找的几个当中,最简单的。如果需要爬取更复杂的网站,可以在上面进行扩展。利用 requests 库写的爬虫,无外乎这几个步骤:1. 解析当前的 url,并找出这个 url 页面内所有需要爬取的子链接。2. 获取每个超链接页面的详细信息3. 保存数据

2019-01-22 00:16:28 2873

原创 Python爬虫——正则表达式基础

正则表达式是处理字符串的一种很强大的工具,我们可以利用正则表达式自由地处理字符串。作为处理字符串的强大工具,正则表达式在处理爬虫的请求内容方面,有着巨大的作用。下面就从 Python 的五个函数开始,来简单介绍一下正则表达式以及它在处理爬虫请求方面的应用。...

2019-01-19 19:14:36 461

原创 五个简单的 Requests 库爬虫实例

本文是中国大学MOOC上的 Python网络爬虫与信息提取 课程中的笔记,是五个基本的爬虫操作,个人觉得其中的方法比较常用,因此记录下来了。

2019-01-18 23:54:51 2504

原创 Requests库基本使用

Requests 库介绍Requests 库是一个非常容易上手的 python 爬虫库,相比于 urllib 库, requests 库非常简洁。下面是我在看视频教程的过程中,记录的一些笔记。get() 方法requests 基本的 get 方法首先来看一下 requests 下 get 方法的基本用法,下面代码输出了 get() 方法返回值的类型和状态码(状态码为 200 表示请求成功)...

2019-01-17 21:54:55 9050

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除