- 博客(3)
- 收藏
- 关注
原创 某网站热门影片资源爬取
爬取磁力链接以及部分字段,数据没有持久化 知识练手。 import re import time import requests from lxml import etree from urllib import parse """ 提取电影天堂热映影片中的部分字段数据灭有神马意义就没保存这个部分 """ class Dytt: def __init__(self): ...
2018-09-11 20:33:49
2030
原创 爬虫学习:爬取京东图书
爬虫学习:scrapy爬取京东图书,详情页url地址对应的响应并不能满足数据提取的需要price字段(即当前url地址对应的响应与element中不一样存在缺失,所以需要构造能够获取价格的请求) # -*- coding: utf-8 -*- import copy import json import requests import scrapy class JdSpider(scrap...
2018-09-06 21:02:32
1721
原创 scrapy_redis 分布式实现当当网图书爬取
通过scrapy_redis 实现分布式爬取当当图书案例 # -*- coding: utf-8 -*- import copy #用scrapy_redis 不需要继承这个类了继承下面的 import scrapy from scrapy_redis.spiders import RedisSpider class DangdangSpider(RedisSpider): na...
2018-09-06 20:43:09
473
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人