scrapy
酷沃
这个作者很懒,什么都没留下…
展开
-
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl转载 2016-05-29 01:51:45 · 252 阅读 · 0 评论 -
4. 基本概念介绍1-scrapy命令行工具(常用)
1、scrapy –help 查看帮助信息 2、scrapy –version 查看scrapy版本 3、scrapy –version -v 查看scrapy中各个依赖主键的版本 4、scrapy startproject projectName 创建工程 5、scrapy genspider spiderName websiteName 创建spider并添加一些网站名称信息原创 2016-05-29 02:17:44 · 481 阅读 · 0 评论 -
5.基本概念介绍-scrapy的重要组件
Spider基本介绍: 概念:是一个类,它定义了怎样爬取网站,包括怎样跟踪链接、怎样提取数据;循环执行流程: 1. 通过初始的url产生request 2. 解析response 3. 使用selector 4. 存储到Item基类(scrapy.Spider)介绍: 属性: name:spider的名称,要求唯一;allowed_domains原创 2016-05-29 13:48:49 · 1138 阅读 · 0 评论 -
6.基本概念解释3-scrapy中的重要对象
Request初始化参数 class scrapy.http.Request( url[ callback, method=’GET’, headers, body, cookies, meta, encoding=’utf-8’, priority=0, don’t_filter=False,原创 2016-05-29 14:22:09 · 551 阅读 · 0 评论 -
10 scrapy框架解读--深入理解爬虫原理
scrapy框架结构图Scrapy Engine: 负责组件之间数据的流转,当某个动作发生时触发事件Scheduler: 接收requests,并把他们入队,以便后续的调度Downloader: 负责抓取网页,并传送给引擎,之后抓取结果将传给spiderSpiders: 用户编写的可定制化的部分,负责解析response,产生items和URLItem Pipeline: 负责处原创 2016-06-01 15:36:12 · 7383 阅读 · 1 评论 -
11_实用技巧1—多级页面的抓取技巧
需求分析:目标网站:天猫商城;抓取内容: 天猫商城销量前60的商品的情况(商品价格、商品名称、商品URL)、店铺的情况(店铺名称、店铺URL、公司名称、公司地址)存储格式:excel表格项目实施:代码解读Item编写spider编写setting设置总结:要求掌握:怎样在spider的不同parse函数中传递数据原创 2016-06-01 18:05:46 · 451 阅读 · 0 评论 -
14_抓取过程中的常见问题2—cookie的处理
登陆的原理会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。web中的身份识别Cookie通过在客户端记录信息确定用户身份, Cookie实际上是一小段的文本信息。客户端请求服务器,如果服务器需要记录该用户状态,就使用response向客户端浏览器颁发一个Cookie。客户端浏览器会把Cookie保存起来。当浏览器再请求原创 2016-06-01 18:15:07 · 546 阅读 · 0 评论 -
8.抓取西刺网站(代理ip网站)
需求分析使用单一ip抓取网页过程中,经常碰到IP被封的情况;现需要获取一批代理IP进行网页抓取;目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP进行爬取,以供日后使用;分析网站结构首页 各分类IP列表连接(国内高匿代理等)IP列表(多页)具体IP获取(查看页面源码-分析html结构编写scrapy) 注意: 匿名:若代理服务器是匿名时,当访问国外的网站时候,国原创 2016-06-01 10:34:43 · 5726 阅读 · 0 评论