Scrapy练习笔记-2

最新推荐文章于 2024-07-19 16:36:18 发布

weixin_43139613

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量92

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_43139613/article/details/82768997

版权

105 篇文章 1 订阅

订阅专栏

继续-1的天气爬虫
先爬后取
在weather文件夹下出现两张网页的源代码
之前顶了item容器，现在从两个网页中的源代码中找出
title
link
desc
分别保存提取出来。
在cmd命令中

C:\D\mypython\weather>scrapy shell 
"http://www.weather.com.cn/weather/101190401.shtml"

将它载入之后就可以进行操作了
可以得到response的回应

>>> response.body

得到网页的代码

>>> response.headers

网页的头
从body中找出
title
link
desc
用XPath找title

>>>response.xpath('//title/text()').extract()   #将得到的title字符串化
['【苏州天气】苏州天气预报,蓝天,蓝天预报,雾霾,雾霾消散,天气预报一周,天气预报15天查询']

找到原网页中有用的信息

>>> sel.xpath('//ul/li/text()')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注