安装:下载Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/
pip install twisted........
pip install scrapy
import scrapy
'''
scrapy 有两种命令,其中project-only必须切换到项目文件夹下才能执行,
而gloable的命令则不需要,
如; startproject 创建项目
genspider 创建爬虫程序
runspider : 运行一个独立的python文件,不必创建项目
项目结构文件说明:
scrapy.cfg 项目的主配置信息,用来部署scrapy时使用,爬虫相关的配置信息在settings.py文件中。
items.py 设置数据存储模板,用于结构化数据,如:Django的Model
pipelines 数据处理行为,如:一般结构化的数据持久化
settings.py 配置文件,如:递归的层数、并发数,延迟下载等。强调:配置文件的选项必须大写否则视为无效,正确写法USER_AGENT='xxxx'
spiders 爬虫目录,如:创建文件,编写爬虫规则,生成初始的Requests来爬取第一个URLS,并且标识一个回调函数
第一个请求定义在start_requests()方法内默认从start_urls列表中获得url地址来生成Request请求,
默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发
'''
class FirstSpider(scrapy.Spider):
#爬虫名
name = 'mySpider'
#允许爬取的域名
allowed_domains=['bbs.tianya.cn']
#开始url
start_url=['http://bbs.tianya.cn/post-140-393968-1.shtml']
def start_requests(self):
pass
#回调方法
def parse(self, response):
pass