环境安装
打开cmd,pip install scrapy安装scrapy,然后去下载twisted.whl,官方下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
安装方法:pip install whl文件的路径+名字
scrapy shell调试(win10)
安装完后使用scrapy shell url,这里我分析一个房产网:
https://fangjia.fang.com/pghouse-c0bj/h315-s11/
在>>>里输入命令,可以对取回的内容即response可以对其进行xpath操作。想看页面内容可以用response.text
下一步进入网页查看你想取出的内容,比如取出里面的一队div
这里使用xpath取出来的是selector选择器,可以对选择器进行进一步操作,如取div内标签属性为housetitle的内容
text()取出标签里的内容,使用extract()提取selector中的内容,取出后是列表,所以使用extract_first()取列表的第一个元素,使用strip()去掉字符串的前后空格。
然后你就可以把xpath放到scrapy项目中用了,一般不会直接把浏览器里调试的xpath放到项目里,应为在项目中取到的页面和浏览器中显示的会有出入。