自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 python requests库之模拟登陆

requests作为python的一个重要的第三方库,可以在web上做许多操作,比如模拟登陆某些需要用户名和密码的网站。笔者用一个flask的web服务与一个django的web服务做了本次测试:flask登陆页面django登陆页面代码如下,# -*- coding: utf-8 -*-# #================================cra...

2018-11-26 21:42:43 303

原创 反爬虫之IP代理池

下面介绍一下IP代理池的实现原理:自动提取代理IP 定期检查代理IP的可用性,维持代理IP池的活性 接收请求并返回一个可用的代理IPIP代理是一个重要和有效的反爬虫的措施,talk is cheap, show me the code.笔者采用django与django-apscheduler定时框架实现的一个代理池,下载项目之后,安装所需库即可直接使用,代码逻辑清晰,便于理解。...

2018-11-25 20:11:32 665

原创 scrapy分布式爬虫

分布式爬虫:概念介绍需求:目标网站有 2w 个url,请求并处理这些 2w 个响应数据,然后入库方案一:单服务器爬虫一个爬虫,负责2w个url,0.1*20000=2000秒方案二:分布式爬虫,协同100个爬虫,一个爬虫负责200个url,0.1*200=20秒 100个爬虫,同时工作误区:多个单服务器爬虫 != 分布式爬虫 单服务器爬虫,它包含 自己的工作量和自己的工人...

2018-11-17 21:07:46 261

原创 python request库,爬取图片的讲解与应用

requests库在python的web应用中使用较多,一些小型爬虫也使用的较多,话不多说,上一段requests爬取糗事百科图片的代码。# coding:utf-8import requestsfrom lxml import etreeimport webbrowserimport osdef requests_view(response): """ 使用默...

2018-09-13 22:10:18 1781

原创 磁带库知识

物理磁带库磁带库特点物理磁带库是一种存储设备,包含一个或多个驱动器、许多插槽、一个条形码阅读器以及一个用于装载磁带的自动机械臂。 磁带库是基于磁带的备份系统,像自动加载磁带机一样提供自动备份和数据恢复功能,可以实现连续备份、自动搜索磁带,也可以在驱动管理软件控制下实现智能恢复、实时监控和统计,整个数据存储备份过程完全摆脱了人工干涉。 磁带机收到备份数据后会将数据首先存入它的内部缓存。然后数...

2018-08-31 17:03:38 3587

原创 python消息队列Queue的理解与实践

 实例1:消息队列Queue,不要将文件命名为“queue.py”,否则会报异常“ImportError: cannot import name 'Queue'”#coding=utf-8from multiprocessing import Queue q = Queue(3)#初始化一个Queue对象,最多可接收三条put消息q.put('message-1')q.put(...

2018-08-31 16:42:25 557

原创 学习笔记--我的第一个爬虫项目

我花了2周的时间,从对Python相关知识一无所知,到成功写出第一个爬虫项目。Python语言真的很简单,不到两百行的代码写出了一个能够爬取百度百科相关词条的有关页面(页面的数量由你定)。我是在网站上学习的,因为有厉害的大神会分享源码以及教你怎么做。我是有C/C++基础的,学Python完全是因为看知乎上有一个很热门的话题“用Python爬虫可以做哪些很酷很有趣的事情?”。看了很多答主的回答,便对

2016-11-07 13:41:57 736

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除