解决文章列表是html的文章详情页的链接的获取。(模板的配置)
之前爬取文章列表的时候都是得到json格式的,因此jsonpath倒是熟悉,没有遇到过是html的。
这次遇到了文章列表是html的,所以要使用xpath来获取文章具体内容。
例:view-source:http://leaders.people.com.cn/GB/178291/134462/index.html
若想要获取事件追踪下的文章Url:
结果是:
解决文章列表是html的文章详情页的链接的获取。(模板的配置)
之前爬取文章列表的时候都是得到json格式的,因此jsonpath倒是熟悉,没有遇到过是html的。
这次遇到了文章列表是html的,所以要使用xpath来获取文章具体内容。
例:view-source:http://leaders.people.com.cn/GB/178291/134462/index.html
若想要获取事件追踪下的文章Url:
结果是: