- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 scrapy学习--list回顾
记得以前看过一些文章将的是学习知识的记忆是螺旋式上升的,所以需要不停的巩固已有的知识。在学习Scrapy的过程中,我会时不时地写一些python基础知识的回顾篇,用于回顾一些常用的知识点。当然作为回顾,我不会写的特别详细,可以作为一个学习的提纲,然后去翻阅资料,这也是一个学习的过程。还有就是第一手资料应该是官方文档。1. append 用于在列表的尾部追加新的内
2015-08-25 22:43:26 815
原创 scrapy学习--Spiders
一、爬虫的工作流程1.通过调用start_request()中的URL获取初始的request,并以parse为回调函数生成Request。2.在parse方法中分析返回的内容,返回Item对象或者Request或者一个可迭代容器。3.在parse内可以使用选择器分析网页内容,并生成item。4.由pipeline将返回的item存储到数据库或者使用Feed exports存入
2015-08-25 22:30:53 2906
原创 scrapy学习--python字典回顾
由于scrapy的items与字典存在较紧密的联系,并且items的Field对象就是内置字典的一个别名。所以想要熟练使用items内容,良好的字典的基础就是必要的。字典类似于java中的Map,由键值对组成。键和值之间用“:”分隔,项与项之间用逗号(,)分隔,整个字典是由大括号括起来。键是唯一的。 获取字典中的一项:>>> dict2 = {'name': 'ea
2015-08-22 22:28:45 773
原创 scrapy学习笔记--Items
Item对象是一种简单容器,用于结构化的保存抓取的数据。Item使用简单的class定义语句一级Field对象来声明。import scrapyclass FirstspiderItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field()Field对象指明了每个
2015-08-20 23:16:25 3044
原创 Pycharm删除项目
按照网上查找到的方法基本上都是:删除本地项目,重新打开Pycharm。这样做在打算彻底删除时是有效的,但是如果只是打算从pycharm中删除,而不是删除本地项目就出现问题。而且重新建立一个同名文件夹,pycharm中又会出现这个项目。正确的方式应该是:1.在用户\XXX\.Pycharm40\config\options目录下,查找到recentProjectDirectori
2015-08-20 22:23:28 18074
原创 scrapy学习笔记--scrapy命令
使用scrapy是一定需要使用到它的命令工具的,所以熟练掌握会很方便。查看所有可用的命令了:scrapy -hh的意思就是help,这一点与大多数应用的命令是一致的。如图一共有十五个可用命令,这些命令分为两类:全局命令、项目命令。全局命令有:startproject、settings、runspider、shell、fetch、view、version。
2015-08-09 23:01:15 1125
原创 scrapy学习笔记--解析结果存储
在上一篇中已经得到了想要的mame,但是并没有将获取的结果保存,仅仅是打印出来了而已。那么现在我们将使用到最初定义的Item对象。Item对象是一个自定义的字典。所以操作Item与正常操作一个字典是一样的。字典里面的字段就是之前定义的属性,本文中就是name属性。# -*- coding: utf-8 -*-from _elementtree import parseimpor
2015-08-02 20:44:15 3285
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人