分分钟爬网站
初始化项目
开始一个项目叫 myScrapy scrapy startproject myScrapy 进入目录 cd myScrapy 生成一个baidu的spider scrapy genspider baidu www.baidu.com 开始执行这个spider scrapy crawl baidu
//查看windows历史命令 doskey /history
获取xpath 右键复制xpath
scrapy 各个文件的作用
爬虫名.py
def parse()主要的解析位置
items.py
主要有几个项目
pipeline.py
持久化的地方,可以打印存入文件数据库等
settings.py 【重要】
配置文件