在处理图书img的链接时(爬取苏宁图书相关信息),有个需求是删除掉图片链接末尾的字符串“_220w_220h_4e”,通过网上查询,给出下面两种解决方案:
先给出item["book_img"]的初始化条件:
item["book_img"] = li.xpath(".//img[@class='search-loading']/@src").extract_first()
方案一:
item["book_img"] = item["book_img"].lstrip("_220w_220h_4e")
方案二:
index = item["book_img"].find(".jpg")
item["book_img"] = item["book_img"].lstrip(item["book_img"][index+3:-1])
个人觉得应该是方案二的效率高一些,联系C++中的字符串的相关操作就知道。但是不确定,如果谁有正确的答案,欢迎纠正,再次先谢过了。。。。。