用**scrapy shell 【domain】**命令爬取网站的信息
爬取红色方框内的文本信息
网址为:https://blog.csdn.net/weixin_43231021?t=1
打开命令行窗口
输入
scrapy shell "https://blog.csdn.net/weixin_43231021?t=1"
在**In[1]?*后面输入:
t=response.xpath('//*[@id="mainBox"]/main/div[2]/div[2]/p/a').extract()
然后按“回车键”
接着输入
print(t)
发现爬取出来的信息乱码
接着输入
print(t.encode('utf-8'))
报错,错误信息是t是列表类型,没有encode方法
我们用**extract()[0]**解决
接着输入:
t=response.xpath('//*[@id="mainBox"]/main/div[2]/div[2]/p/a').extract()[0]
然后输入:
print(t.encode('utf-8'))
可以输出文本信息了
主要代码:
scrapy shell "https://blog.csdn.net/weixin_43231021?t=1"
t=response.xpath('//*[@id="mainBox"]/main/div[2]/div[2]/p/a').extract()[0]
print(t.encode('utf-8'))