2019年08月_painye

11月 10月 09月 08月

原创 python之Requests库基础

实例引入 import requests #请求网站，并将响应赋给response response = requests.get('https://www.baidu.com/') #打印类型 print(type(response)) #打印状态码 print(response.status_code) #打印网页源代码，响应内容 print(response.text) #打印cookie...

2019-08-12 17:09:14 139

原创爬虫基本原理讲解

爬虫请求网站并提供数据的自动化程序爬虫的基本流程 1、发起请求通过HTTP库向目标站点发起请求，其发送一个request，请求可以包含额外的headers等信息，等待服务器响应 2、获取响应如果·服务器正常响应，会得到一个response，response的内容便是索要获取的页面内容，类型可能有HTML，Json字符串、二进制数据等类型 3、解析内容得到的内容可能是HTML，可以用正则表...

2019-08-11 19:29:23 172

原创用Flask+Redis维护代理池

在做爬虫请求的时候我们可能需要很多的ip,这里我们就要维护一个代理池。代理池即一个代理的队列，我们可以添加代理也可以取出一个代理。我们需要定期的检查更新来保证其正常使用 Redise 用来维护池，实现池的队列存储 flask 实现代理池的一个接口，从代理池拿出一个代理用falsk做一个接口，通过web返回代理为什么要用代理池许多网站有专门的的反爬虫措施，可能遇到封ip等问题。我...

2019-08-11 17:39:51 118

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 python之Requests库基础

原创 爬虫基本原理讲解

原创 用Flask+Redis维护代理池

空空如也

空空如也

原创爬虫基本原理讲解

原创用Flask+Redis维护代理池