- 博客(3)
- 收藏
- 关注
原创 python之Requests库基础
实例引入 import requests #请求网站,并将响应赋给response response = requests.get('https://www.baidu.com/') #打印类型 print(type(response)) #打印状态码 print(response.status_code) #打印网页源代码,响应内容 print(response.text) #打印cookie...
2019-08-12 17:09:14 139
原创 爬虫基本原理讲解
爬虫 请求网站并提供数据的自动化程序 爬虫的基本流程 1、发起请求 通过HTTP库向目标站点发起请求,其发送一个request,请求可以包含额外的headers等信息,等待服务器响应 2、获取响应 如果·服务器正常响应,会得到一个response,response的内容便是索要获取的页面内容,类型可能有HTML,Json字符串、二进制数据等类型 3、解析内容 得到的内容可能是HTML,可以用正则表...
2019-08-11 19:29:23 172
原创 用Flask+Redis维护代理池
在做爬虫请求的时候我们可能需要很多的ip,这里我们就要维护一个代理池。 代理池即一个代理的队列,我们可以添加代理也可以取出一个代理。我们需要 定期的检查更新来保证其正常使用 Redise 用来维护池,实现池的队列存储 flask 实现代理池的一个接口,从代理池拿出一个代理 用falsk做一个接口,通过web返回代理 为什么要用代理池 许多网站有专门的的反爬虫措施,可能遇到封ip等问题。我...
2019-08-11 17:39:51 118
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人