在python解析网页内容爬虫时出现乱码问题怎么解决:[‘ä¸\x89äº\x9a‘, ‘å¤\x9aäº\x91‘, ‘30/25â\x84\x83‘, ‘é\x80\x82å®\x9c‘,

一.解析网页的内容

1.使用requests请求发送请求头

2.使用etree解析网页

注意:区分text和content的区别

如果是text 运行的话便会出现乱码现象

此时我们只需要把text改为content,再次运行

出现【中文乱码】原因
使用requests库时,选择使用的文本响应方法不合适,且没有在代码中添加设置合适的编码,以致于使用【response.text】自动获取到的网页编码,与实际网页的编码不一致,进而产生【中文乱码】。
1、【response.text】会自动根据HTTP头部去推测网页的编码,解码并返回解码后的文本
2、【response.content】不会解码,直接以二进制形式返回

以下是text和content的区别:

3.使用xpath解析解析网页内容,添加读取文本内容

(在网页中按F12选中要解析的内容并右击复制xpath路径)

4.使用csv写入文件

attractions.csv:写入文化名;
'w':写入,
newline='':换行,
encoding='utf-8':设置编码格式

注意:writerow()和writerows()的区别
writerow()

writerow()将一个列表全部写入csv的同一行。

writerows()

writerows()将一个二维列表中的每一个列表写为一行。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值