scrapy
ding283595861
这个作者很懒,什么都没留下…
展开
-
scrapy爬取图片详细步骤
1.爬取https://image.so.com/z?ch=photography图片,用谷歌浏览器打开开发者工具,选中XHR选项, 由于使用了AJAX ,可以看到页面的刷新情况. 待会附上的源码就有拼接url:https://image.so.com/zj?key=value&key1=value2… 以及json字段解析 ...原创 2019-09-11 11:07:25 · 3844 阅读 · 1 评论 -
config通用配置文件china.json
爬虫通用配置文件: 可以根据需求定制不同的配置文件 { "spider":"universal", "website":"中华网科技", "type":"新闻", "index":"http://tech.china.com/", "settings":{ "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/53...原创 2019-09-25 08:28:12 · 412 阅读 · 0 评论 -
spiders爬虫文件
# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from scrapyuniversal.utils import get_config from scrapyuniversal.rul...原创 2019-09-25 08:30:41 · 287 阅读 · 0 评论 -
scrapy通用爬虫CrawlSpider案例
新建爬虫方式: 1.创建scrapy工程:scrapy startproject projectName 2.cd projectName 3.创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 如本例中: scrapy startproject scrapyuniversal cd scrapyuniversal scrapy ...原创 2019-09-25 08:44:25 · 406 阅读 · 0 评论 -
win10+docker镜像,运行scrapy程序
**** 确保win10系统上安装了docker. 由于我的win10系统是家庭版,家庭版本的安装请参考:**** https://blog.csdn.net/ding283595861/article/details/100847802 **** 请确认win10上安装了mongodb服务,详细的安装请参考:**** https://blog.csdn.net/ding283595861/art...原创 2019-09-28 10:35:16 · 650 阅读 · 0 评论