好不容易把pyspider裝上了,linux真矬!
多次試驗總算搞明白response.doc和pyQuery的用法。
response.doc()就是你爬出來的網頁的html代碼,print(response.doc)就看到了。但是要用pyQuery選裡面的元素,需要再弄個變量,像這樣:
strHtml = response.doc
print(strHtml('div').filter('.hd').html())
就把class ==‘hd’的<div>元素的html代碼打印出來了。
懂了?