爬虫
qq_44371321
这个作者很懒,什么都没留下…
展开
-
网页爬虫中\xa0、\u3000等字符的解释及去除
https://www.cnblogs.com/hsinfo/p/13602104.html \xa0表示不间断空白符,爬虫中遇到它的概率不可谓不小,而经常和它一同出现的还有\u3000、\u2800、\t等Unicode字符串。单从对\xa0、\t、\u3000等含空白字符的处理来说,有以下几种方法可行: 使用re.sub 使用正则表达式可以轻松匹配所有空白字符,它对于Unicode字符也是有效的,比如: import re s = 'T-shirt\xa0\xa0短袖圆领衫,\u3000体恤衫\xa0买转载 2021-01-14 15:08:25 · 6082 阅读 · 0 评论 -
字符串和字节串转换
字节串转字符串: b = b'some byte array' str(b, encoding = "utf-8") #or bytes.decode(b) 然后是字符串转为字节串: s = 'some string' bytes(s, encoding = "utf8") #or str.encode(s)原创 2021-01-07 18:22:03 · 415 阅读 · 0 评论 -
pip升级安装失败报错
当输入python -m pip install --upgrade pip命令报错时,此时已经被自动卸载了pip,所以需要再次安装pip和重新输入更新pip命令 python -m ensurepip python -m pip install --upgrade pip原创 2021-01-06 12:06:43 · 229 阅读 · 0 评论 -
安装scrapy出现依赖包无法自动安装
如果出现安装scrapy模块出现以下问题: 说明twised依赖包安装不了,需要手动安装 这里提供下载链接: 链接:https://pan.baidu.com/s/1CyNH3IaJo-cKAwb5516wJA 提取码:06yn 复制这段内容后打开百度网盘手机App,操作更方便哦 ...原创 2020-12-16 13:14:14 · 150 阅读 · 0 评论