下载小说的爬虫代码中的问题

  1. Python strip() 方法:用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
    注意:1)strip()不能移除字符串中间的内容;2)strip()移除头尾的字符时可不管头尾有多少个一样的字符,只要是指定的字符且无论顺序,就统统移除。
str = "00000003210Runoob01230000000"
print(str.strip('0')) # 去除首尾字符 0

str2 = "   Runoob      "  # 去除首尾空格
print(str2.strip())

str3 = "123abcrunoob312"
print(str3.strip('123'))  # 字符序列为 123

结果是

3210Runoob0123
Runoob
abcrunoob
  1. .text和get_text()
    这两者似乎没有区别,get_text()里能直接用参数get_text("/",strip = True),意思是用/分隔每个字符,同时去除前后的空格,所以下面两句代码的效果是一样的:
content = texts.get_text("/",strip = True).split("/")

content = texts.text.strip().split('\xa0' * 4) 

为什么第一行代码是用/分隔,第二行用4个空格分隔,是因为get_text可以插入一个参数,而text不能,并且原始的字符串中间有4个空格。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值