2018年06月_cwd_python

原创爬虫——scrapy下载图片

使用scrapy下载图片只需要几部，因为系统自带得有(☄⊙ω⊙)☄ [toc]第一步，还是定义itemstitle，url第二步，定义spider爬取的内容然后装入items中好了最重要的步骤来了第三步写入pipel这里需要用到自带的ImagesPipelinefrom scrapy.pipelines.images import ImagesPipe...

2018-06-09 12:40:15 8108

原创爬虫——scrapy，弱引用weakref.ref

爬虫框架scrapy介绍：组件安装：步骤XPATH用法调试bug安装查看链接xpath是否生效弱引用爬虫框架爬虫的框架无非就是3步骤：过滤——筛选需要的信息映射——把数据映射想要的形式规约——提取有用的信息 filter——map——reduce 下面这个图很好的解释了什么是这三部的含义 scrapy前面我...

2018-06-06 13:58:03 804

原创爬虫——异步I/O（协程），防盗链接，面试题：如何让if和else同时执行

Referer防盗链接并发编程拓展——面试题Referer防盗链接meta重定向标签，表示进去后跳转到别的网站中间键防盗链接 META拿到Referer标签，里面是否有指定请求头 ‘xxx.com’ in request.META[‘HTTP_Referer’]获取要写全绕过：headers={‘Referer’: ‘xxx.com’} 请求只需要修改re...

2018-06-06 13:57:51 334

原创爬虫——加载静态页面或者页面登录等

在许多网站中我们会用到登录才能看到的页面，或者需要浏览器加载的静态js显示出来的页面才能获取其中的内容我们就需要模拟登录或者模拟成浏览器requests（比较复杂）比如用模拟登录gitbug网站import requestsfrom bs4 import BeautifulSoup# 模拟表单提交def main(): resp = requests.get('...

2018-06-06 13:57:33 429

原创爬虫——分线程爬取，urlparse，枚举，Queue表

import loggingfrom enum import Enum, uniquefrom queue import Queuefrom random import randomfrom threading import Thread, current_threadfrom time import sleepfrom urllib.parse import urlparsei...

2018-06-06 13:57:14 296

原创爬虫——改变身份隐藏id，数据的储存和序列化、压缩

改变身份herdersproxies 数据序列化和压缩改变身份在爬取很多网站的时候需要改变自己的身份，否则直接被截取无法爬取因此我们需要在get的时候加入headersherders用的参数 user-agent 比如我们用百度爬虫的身份： herders = {‘user-agent’: ‘Baiduspider’}常见的Use...

2018-06-06 10:58:13 594

原创爬虫储存——redis读写分离，哨兵监控。MongoDB配置

redisREPLICATION主从复制，读写分离info replication如何配置奴隶：如何成为奴隶如何不当奴隶设置哨兵启动哨兵负载均衡拓展在python中原型复制设置存活时间MongoDB安装步骤启动MongoDB查看后台提取后台MongoDB的增删改查用pycharm链接MongoDB解读什么叫nosqlredis...

2018-06-06 10:57:23 561

原创网络爬虫——基础大致结构

网络爬虫爬虫的应用领域一个简单的爬虫方法一：python自带的方式：urlliburlopen(url).read()表示获取到url地址然后.decode(参数)解码原生方法需要用正则表达式去获取页面中想要的参数方法二：第三方需要记住的是获得网站后用content.decode()解码BeautifulSoup解析页面需要将里面参数改为lxml用选择器语法获取标签中的值...

2018-06-06 10:56:39 5841 1

cwd的博客