数据采集
shuizhongmose
这个作者很懒,什么都没留下…
展开
-
scrapy中文字符问题
问题描述 在scrapy spider的解析函数中,有时候通过如下两种方式获得的html数据中中文字符出现类似于\\u3010\\u6bdb\\u91cc这种格式的字符。 respone.text 或者 response.body.decode(response.encoding) 该字符串产生的问题是因为将unicode类型的数据转换为了str类型。在后续的处理中,中文字符只展示编码后的情况...原创 2019-12-06 16:06:32 · 319 阅读 · 0 评论 -
使用scrapy下载文件
使用的scrapy版本是1.8.x 官方文档:https://docs.scrapy.org/en/latest/topics/media-pipeline.html 在scrapy中,提供了两个下载文件的pipeline,分别是: scrapy.pipelines.images.ImagesPipeline scrapy.pipelines.files.FilesPipeline 其中sc...原创 2019-12-06 15:50:41 · 844 阅读 · 0 评论