爬虫遇到的问题

最新推荐文章于 2024-05-01 22:42:15 发布

Kotomi_5555

最新推荐文章于 2024-05-01 22:42:15 发布

阅读量306

点赞数

本文链接：https://blog.csdn.net/u010619243/article/details/70991124

版权

特殊字符串处理的问题：

“第一佳大鸡排（新街口店）/黄焖鸡米饭”被识别成文件夹名

#处理特殊字符"/"
	dex0 = line[6].find("/")
	if dex0 != -1:
		line[6] = line[6][0:dex0]

“约翰大叔▪比萨（龙跃店）“输出时，有特殊字符，无法输出。

# 处理特殊字符"▪"
	dex1 = line[6].find("▪")
	if dex1 != -1:
		line[6] = line[6][0:dex1]

问题.将unicode字符编码成GBK出现问题，因为本身Unicode类型的字符中，包含了一些无法转换为GBK编码的一些字符
如下图，

解决方法：unicode字符编码时，添加ignore参数，忽略无法无法编码的字符
即str.encode('gbk', 'ignore')这种格式

4.29-4.30号

爬虫总结：这两天写爬虫，第一个知道自己最致命的一个问题是，无法将全局问题和局部问题定位很好。

1、爬取信息，尽量越少文件约好，一开始分了好多个子文档，傻B才会那么做。

2、关于python编码的问题真的是够够的，第一个办法是用python3，然后只要有这样的问题，就encode“utf-8”一下

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注