一. scrapy安装
使用pip install scrapy安装,输入命令后在安装Twisted依赖库时受阻,报错。
尝试解决办法:
需要先更新安装插件: pip install –upgrade incremental
再安装Twisted: pip intall twisted
再安装scrapy : pip install scrapy
或者百度搜索解决办法,下载Twisted.whl安装
二. 建立scrapy项目
1.PyCharm打开Terminal窗口输入以下命令:
创建:scrapy startproject TestSpider #TestSpider是创建的项目名称
命令执行完成后Project目录下生成对应TestSpider文件夹
2.进入创建的文件夹cd TestSpider
3.创建爬虫scrapy genspider baidu www.baidu.com #baidu是爬虫名,www.baidu.com抓取的网址
完成后TestSpider文件夹spider目录下生成baidu.py文件
三.shell调试
1.Terminal窗口输入: scrapy shell www.baidu.com
2.进入scrapy 的shell窗口进行调试
获取图中 ”百度一下“ 文字
抓取信息定位,shell中输入语句
response.xpath(('//*[@id=\"su\"]/@value').extract()