c 去掉html中的 r n,如何删除\ r \ n，空格并启用Scrapy css中的口音？

weixin_39859988

于 2021-06-21 02:34:19 发布

阅读量154

点赞数

文章标签： c 去掉html中的 r n

我是非常好 begginer，所以放心吧。我用google搜索了如何修复它，但是我得到的每个答案都是针对Xpath，而我正在使用CSS。如何删除 r n，空格并启用Scrapy css中的口音？

import scrapy

class CinemaSpider(scrapy.Spider):

name = "cinema"

allowed_domains = ['cineroxy.com.br']

start_urls = [

'http://cineroxy.com.br/programacao-brisamar',

]

def parse(self, response):

movie_names = response.css('.titulo p::text').extract()

for movie_name in movie_names:

yield {

'name': movie_name

}

心中已经正确地执行，因此将虎视眈眈的信息，并创建一个JSON文件：

C:\Python27\Scripts>scrapy runspider cinema_scraper.py -o movies.json

但结果却是这样的：

[

{"name": "\r\n A Bailarina\r\n "},

{"name": "\r\n Assassins Creed - O Filme\r\n "},

{"name": "\r\n Cinquenta Tons Mais Escuros\r\n "},

{"name": "\r\n Minha M\u00e3e \u00e9 uma Pe\u00e7a 2\r\n "},

{"name": "\r\n Moana - Um Mar de Aventura\r\n "},

{"name": "\r\n Os Penetras 2 - Quem D\u00e1 Mais?\r\n "},

{"name": "\r\n Quatro Vidas de Um Cachorro\r\n "},

{"name": "\r\n Resident Evil 6: O \u00daltimo Cap\u00edtulo\r\n "},

{"name": "\r\n xXx: Reativado\r\n "}

]

现在，我有3个问题需要解决输出/额外提示：\ r \ n，尝试提取突出的单词时出现大的空白区域和错误(生化危机6：原始图像为生化危机6：破坏图像)。

一件事这个网站的源代码都在与他人的心中已经研究不同的是，它写的标题前下降一行：

Resident Evil 6: O Último Capítulo

clique para ver os horários

很抱歉的长期职位和可能的巨大的愚蠢的错误。在此先感谢。

2017-01-30

Lestat

+0

请注意，在'JSON输出\ uXXXX'序列是不是一个错误，它_is_有效的JSON语法，代表非ASCII字符的简单方法之一。一个JSON兼容的阅读器/程序可以很好地理解那些'\ uXXXX'序列;另一方面，读者可能不会。在其中一个答案中提到的“FEED_EXPORT_ENCODING”设置将写入UTF-8编码字符，而不会出现\ uXXXX转义。许多文本编辑器/浏览者都会将JSON文本文件的'\ xc3 \ x9a'序列('\ u00da'的UTF-8编码)解码为**Ú**，但它仍然被解释。人们仍然很难理解'\ xc3 \ x9a'。 –

+0

我不认为它不是一个错误，程序可以读取它。顺便说一句，我使用记事本++来打开JSON。我应该使用其他文本编辑器吗？ –

weixin_39859988

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
c 去掉html中的 r n,如何删除\ r \ n，空格并启用Scrapy css中的口音？

我是非常好 begginer，所以放心吧。我用google搜索了如何修复它，但是我得到的每个答案都是针对Xpath，而我正在使用CSS。如何删除 r n，空格并启用Scrapy css中的口音？import scrapyclass CinemaSpider(scrapy.Spider):name = "cinema"allowed_domains = ['cineroxy.com.br']st...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。