1.安装scrapy
pip install -i 源 scrapy
2.手动创建scarpy项目
scrapy startproject 项目名称
3.scrapy genspider jobbole blog.jobbole.com(使用自带模板)
4.调试
修改setting文件中obey robots为flase
新建py文件
在命令窗口中输入
5.提取内容(有多种方法)
- xpath使用路径表达式在xml和html中定航
页面分析内容时,注意页面加载后F12下获取元素的xpath和直接获取源码的xpath可能不一样,因为页面动态加载js后可能会生成新的页面布局。
- css选择器
- beatufulsoup
6.shell调试
scrapy shell 网址
- extract() 提取内容,返回一个数组
- stripe() 去掉换行符
- 正则表达式中,group()用来提出分组截获的字符串,()用来分组
- tags = ",".join(list) python将数组用","拼接成字符串