DoCki-CSDN博客

原创 python requests库之模拟登陆

requests作为python的一个重要的第三方库，可以在web上做许多操作，比如模拟登陆某些需要用户名和密码的网站。笔者用一个flask的web服务与一个django的web服务做了本次测试： flask登陆页面 django登陆页面代码如下， # -*- coding: utf-8 -*- # #================================cra...

2018-11-26 21:42:43 399

原创反爬虫之IP代理池

下面介绍一下IP代理池的实现原理：自动提取代理IP 定期检查代理IP的可用性，维持代理IP池的活性接收请求并返回一个可用的代理IP IP代理是一个重要和有效的反爬虫的措施，talk is cheap, show me the code. 笔者采用django与django-apscheduler定时框架实现的一个代理池，下载项目之后，安装所需库即可直接使用，代码逻辑清晰，便于理解。 ...

2018-11-25 20:11:32 757

原创 scrapy分布式爬虫

分布式爬虫：概念介绍需求：目标网站有 2w 个url，请求并处理这些 2w 个响应数据，然后入库方案一：单服务器爬虫一个爬虫，负责2w个url，0.1*20000=2000秒方案二：分布式爬虫，协同 100个爬虫，一个爬虫负责200个url，0.1*200=20秒 100个爬虫，同时工作误区：多个单服务器爬虫 != 分布式爬虫单服务器爬虫，它包含自己的工作量和自己的工人...

2018-11-17 21:07:46 358

原创 python request库，爬取图片的讲解与应用

requests库在python的web应用中使用较多，一些小型爬虫也使用的较多，话不多说，上一段requests爬取糗事百科图片的代码。 # coding:utf-8 import requests from lxml import etree import webbrowser import os def requests_view(response): """ 使用默...

2018-09-13 22:10:18 1867

原创磁带库知识

物理磁带库磁带库特点物理磁带库是一种存储设备，包含一个或多个驱动器、许多插槽、一个条形码阅读器以及一个用于装载磁带的自动机械臂。磁带库是基于磁带的备份系统，像自动加载磁带机一样提供自动备份和数据恢复功能，可以实现连续备份、自动搜索磁带，也可以在驱动管理软件控制下实现智能恢复、实时监控和统计，整个数据存储备份过程完全摆脱了人工干涉。磁带机收到备份数据后会将数据首先存入它的内部缓存。然后数...

2018-08-31 17:03:38 4734

原创 python消息队列Queue的理解与实践

实例1：消息队列Queue，不要将文件命名为“queue.py”,否则会报异常“ImportError: cannot import name 'Queue'” #coding=utf-8 from multiprocessing import Queue q = Queue(3)#初始化一个Queue对象，最多可接收三条put消息 q.put('message-1') q.put(...

2018-08-31 16:42:25 676

我花了2周的时间，从对Python相关知识一无所知，到成功写出第一个爬虫项目。Python语言真的很简单，不到两百行的代码写出了一个能够爬取百度百科相关词条的有关页面（页面的数量由你定）。我是在网站上学习的，因为有厉害的大神会分享源码以及教你怎么做。我是有C/C++基础的，学Python完全是因为看知乎上有一个很热门的话题“用Python爬虫可以做哪些很酷很有趣的事情？”。看了很多答主的回答，便对

2016-11-07 13:41:57 842

Love_ProgramingKi的博客