jobbole总结一

最新推荐文章于 2020-06-27 23:54:14 发布

小爬爬爬

最新推荐文章于 2020-06-27 23:54:14 发布

阅读量675

点赞数

分类专栏：爬虫-scrapy JAVASE 文章标签： jobbole总结一

本文链接：https://blog.csdn.net/oCaiSege/article/details/76158503

版权

爬虫-scrapy 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

JAVASE

2 篇文章 0 订阅

订阅专栏

Scrapy项目的 allowed_domains = [“blog.jobbole.com”] 不用加 http://
scrapy.Request(url=article_url, callback=self.parse_article, meta={'front_image_url': front_image_url}没有follow,callback是谁就交给谁解析,meta可以通过request将数据通过response传递到解析函数, 可用item[‘front_image_url’] = [response.meta.get(‘front_image_url’, ”)]获得,没有则返回空

article_div = response.xpath('//div[@id="archive"]/div[@class="post floated-thumb"]')
        # 可以直接遍历
        for div in article_div:
            article_url = div.xpath('./div[@class="post-meta"]/p/a/@href').extract()[0]
            front_image_url = div.xpath('./div[@class="post-thumb"]/a/img/@src').extract()[0]
            print article_url
            print front_image_url

            yield scrapy.Request(url=article_url, callback=self.parse_article, meta={'front_image_url': front_image_url})

通过xpath获得的可以直接遍历.

tags_list = response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()
tags_list = [element for element in tags_list if not element.encode('utf-8').strip().endswith('评论')]
tags = ','.join(tags_list)

tags_list是一个Unicode字符数组,通过列表生成式可以重新生成一个list去掉原list中以’评论’为结尾的字符
通过join方法可以连接list中的字符串

item['title'] = response.xpath("//div[@class='entry-header']/h1/text()").extract_first("")

这个方法比extract[0]好,不会发生index error当len(list)为0时,返回默认值”“

comment_nums = response.xpath("//div[@class='post-adds']/a/span/text()").extract_first('')
match_re = re.match('.*?(\d+).*', comment_nums)
    if match_re:
        comment_nums = match_re.group(1)
    else:
        comment_nums = 0

利用正则取出评论数字
在项目目录下建立main文件

from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(__file__))
execute(["scrapy", "crawl", "jobbole"])

可以用来调试scrapy

小爬爬爬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jobbole总结一

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
复制链接

扫一扫