c 去掉html中的 r n,如何删除\ r \ n,空格并启用Scrapy css中的口音?

我是非常好 begginer,所以放心吧。 我用google搜索了如何修复它,但是我得到的每个答案都是针对Xpath,而我正在使用CSS。如何删除 r n,空格并启用Scrapy css中的口音?

import scrapy

class CinemaSpider(scrapy.Spider):

name = "cinema"

allowed_domains = ['cineroxy.com.br']

start_urls = [

'http://cineroxy.com.br/programacao-brisamar',

]

def parse(self, response):

movie_names = response.css('.titulo p::text').extract()

for movie_name in movie_names:

yield {

'name': movie_name

}

心中已经正确地执行,因此将虎视眈眈的信息,并创建一个JSON文件:

C:\Python27\Scripts>scrapy runspider cinema_scraper.py -o movies.json

但结果却是这样的:

[

{"name": "\r\n A Bailarina\r\n "},

{"name": "\r\n Assassins Creed - O Filme\r\n "},

{"name": "\r\n Cinquenta Tons Mais Escuros\r\n "},

{"name": "\r\n Minha M\u00e3e \u00e9 uma Pe\u00e7a 2\r\n "},

{"name": "\r\n Moana - Um Mar de Aventura\r\n "},

{"name": "\r\n Os Penetras 2 - Quem D\u00e1 Mais?\r\n "},

{"name": "\r\n Quatro Vidas de Um Cachorro\r\n "},

{"name": "\r\n Resident Evil 6: O \u00daltimo Cap\u00edtulo\r\n "},

{"name": "\r\n xXx: Reativado\r\n "}

]

现在,我有3个问题需要解决输出/额外提示:\ r \ n,尝试提取突出的单词时出现大的空白区域和错误(生化危机6:原始图像为生化危机6:破坏图像)。

一件事这个网站的源代码都在与他人的心中已经研究不同的是,它写的标题前下降一行:

040920161914411.jpg

Resident Evil 6: O Último Capítulo

clique para ver os horários

很抱歉的长期职位和可能的巨大的愚蠢的错误。 在此先感谢。

2017-01-30

Lestat

+0

请注意,在'JSON输出\ uXXXX'序列是不是一个错误,它_is_有效的JSON语法,代表非ASCII字符的简单方法之一。一个JSON兼容的阅读器/程序可以很好地理解那些'\ uXXXX'序列;另一方面,读者可能不会。在其中一个答案中提到的“FEED_EXPORT_ENCODING”设置将写入UTF-8编码字符,而不会出现\ uXXXX转义。许多文本编辑器/浏览者都会将JSON文本文件的'\ xc3 \ x9a'序列('\ u00da'的UTF-8编码)解码为**Ú**,但它仍然被解释。人们仍然很难理解'\ xc3 \ x9a'。 –

+0

我不认为它不是一个错误,程序可以读取它。顺便说一句,我使用记事本++来打开JSON。我应该使用其他文本编辑器吗? –

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值