1.使用scrapy startproject 文件夹名 创建scrapy的文件结构
2.在pycharm中安装scrapy时,因为缺少依赖包如pywin32或lxml等,因此crawl指令无法使用
3.安装Anaconda,安装时点选将路径加入用户变量,在Anaconda中安装scrapt,将Anaconda中的解释器设置为项目的外部解释器
4.在Anaconda prompt使用scrapy指令,如
scrapy crawl names
or
scrapy runspider 文件名
以进行爬取。执行时路径应为spiders的上一级目录
5.pycharm的terminal调用Anaconda prompt:
在pycharm的settings中找到terminal的shell path,内容有cmd.exe改为cmd.exe "/K" E:\Anaconda3\Scripts\activate.bat E:\Anaconda3 (从路径为Anaconda prompt的路径)
6.发起请求,如:
scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"
用于在命令行中调试。
利用xpath获取元素,如:
response.xpath('//title/text()').get().split("|")[-2]