linux selenium 截图乱码,使用selenium，用PhantomJS抓取网页后保存为.html后出现中文乱码？...

最新推荐文章于 2023-01-04 00:33:52 发布

weixin_39943202

最新推荐文章于 2023-01-04 00:33:52 发布

阅读量160

点赞数

文章标签： PhantomJS 中文乱码网页爬虫编码问题 Python

保存的html文档中出现中文乱码：

代码：

from selenium import webdriver

browser = webdriver.PhantomJS( )

url = 'http://music.163.com/#/playlist?id=11362719'

browser.get(url) # 打开网页

browser.switch_to.frame(browser.find_element_by_xpath("//iframe"))

#title = browser.find_elements_by_xpath('//*[@id="play-count"]')

#title = browser.find_elements_by_xpath('//*tr/@class')

#print(browser.page_source.encoding('utf-8'))

print(browser.page_source,file=open('C:/Users/welwel/Desktop/source.html','w',encoding='utf-8'))

browser.quit()

1.使用type(browser.page_source)查看类型是str,无法使用。decode转换格式

2.用的是win7下python3.5 的IDLE，使用sys.getdefaultencoding()查看默认编码是‘utf-8’

3.直接使用print(browser.page_source)报错：

Traceback (most recent call last):

File "C:\Users\welwel\Desktop\wangyi.py", line 8, in

print(browser.page_source)

File "C:\Python35-32\lib\idlelib\PyShell.py", line 1344, in write

return self.shell.write(s, self.tags)

UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 55288-55288: Non-BMP character not supported in Tk

这个问题在第一次爬取网页时使用print(browser.page_source,file=open('C:/Users/welwel/Desktop/source.html','w',encoding='utf-8'))

不会报错，但是加在for循环中就会从第二个开始，出现中文乱码，不知是不是bug。有没有遇到过的。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39943202

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬取html数据中文乱码,使用selenium，用PhantomJS抓取网页后保存为.html后出现中文乱码？...

weixin_39723678的博客

06-04

490

保存的html文档中出现中文乱码：代码：from selenium import webdriverbrowser = webdriver.PhantomJS( )url = 'http://music.163.com/#/playlist?id=11362719'browser.get(url) # 打开网页browser.switch_to.frame(browser.find_elemen...

seleuim获取html编码格式,使用selenium，用PhantomJS抓取网页后保存为.html后出现中文乱码？...

weixin_42512103的博客

06-08

518

参与评论您还未登录，请先登录后发表或查看评论

Ubuntu Selenium截图出现乱码/中文变成框框-附件资源

03-02

Ubuntu Selenium截图出现乱码/中文变成框框-附件资源

linux selenium 截图乱码,Selenium3+python异常后截图（screenshot）

weixin_39611666的博客

05-09

528

前言在执行用例过程中由于是无人值守的，用例运行报错的时候，我们希望能对当前屏幕截图，留下证据。在写用例的时候，最后一步是断言，可以把截图的动作放在断言这里，那么如何在断言失败后截图呢？一、截图方法1.get_screenshot_as_file(self, filename)--这个方法是获取当前window的截图，出现IOError时候返回False,截图成功返回True。filename参数是...

使用selenium保存中文时出现乱码

adzeroyang的博客

01-04

1104

使用selenium保存中文时一直出现乱码，后来发现是由于电脑系统编码导致的乱码

selenium 给页面元素赋值（中文），打开网页后该字段显示乱码

weixin_35703883的博客

05-13

2853

例如：打开百度的首页，然后想要在输入搜索框中输入“母亲节来源”，然后点击搜索按钮。 webdriver的脚本如下：浏览器中显示如下：解决方案： 1）查看了以下我的firefox的编码格式没问题（unicode）； 2）然后检查以下我代码的编码格式，发现这个文件使用utf-8编码的，改成gbk编码后，重新运行，浏览器正常显示。 ...

使用selenium爬虫抓取数据

热门推荐

liucc09的博客

09-19

2万+

使用selenium爬虫抓取数据文章目录使用selenium爬虫抓取数据@[toc]总体介绍Selenium安装安装火狐浏览器插件Katalon Recorder简单教程抓取网易房地产数据例子参考链接总体介绍 Selenium 简单入门教程使用 Selenium 模拟访问网易数据中心的房价数据使用 BeautifulSoup 解析网页信息使用 Pandas 处理数据使用 Matplo...

使用Selenium抓取zabbix性能监控图

m0_67419887的博客

03-27

2014

概要　　老样子先来个概要，因为公司一直都子使用企业微信，前两天刚刚将所有zabbix的告警信息接到微信上，总感觉还差那么一点，就想着就高等级的告警加上一个性能监控图，这样只看告警信息大概就清楚问题了，不用在登录到zabbix再去查找信息，就因为这个想法让我掉坑里呆了一整天，蓦然回首还是自己太菜啊，下面先贴出来使用Python登录zabbix并且获取到对应告警项监控图的代码，之后完整代码会贴到github中，链接放到简书上~ 　　实现抓取　　以下几点基础：　　1、告警信息的发送message里，

Selenium WebDriver + ReportNG中文乱码问题

05-12

Selenium WebDriver + ReportNG 中文乱码问题解决方案。

centos宋体下载&Ubuntu宋体下载&解决selenium在谷歌浏览器上截图乱码

10-26

本字体是windows操作系统上的字体，但在linux的发行版本中，如CentOS，部分软件需要安装字体才能正常运行，比如selenium控制的谷歌浏览器，如果服务器上不安装宋体，运行后截图是乱码的。

linux 下chrome + selenium (davinci 定时任务)截图中文乱码显示□问题

又是再见?

11-09

1395

背景: davinci 项目定时任务将报表内容截图发送到邮箱时发现中文内容都变成了□□□ 问题: 系统中缺少中文字体, 不能识别内容中的中文解决办法: 在对应服务运行环境上安装中文字体 1，查看系统安装了哪些字体　　fc-list (如果没有此命令，需要yum安装字体库) 2，安装字体库　　yum -y install fontconfig 　　cd /usr/share/fonts 　　mkdir chinese 　　cd chinese 　　#上...

selenium+pytest自动化脚本生成报告乱码问题

xiaobawang001的博客

01-03

344

解决pytest中文显示？问题

解决centosx系统chrome安装selenium截图变方框的问题

tomcat_little的博客

05-26

189

问题描述部署robotframework到服务器，报告中的截图展示方框，如图所示解决方法下载字体包，并安装字体包，问题解决 #安装字体 wget http://mirror.centos.org/centos/8/AppStream/x86_64/os/Packages/wqy-microhei-fonts-0.2.0-0.22.beta.el8.noarch.rpm wget http://mirror.centos.org/centos/8/AppStream/x86_64/os/Pa

CentOS7 Selenium chrome截图时，文字呈方框乱码状态解决

qq_37144341的博客

09-18

3274

在CentOS7使用Selenium chrome截图时，图片中文字为乱码状态，如下图：在centos上安装了宋体字体解决了这个问题系统:centos 7 下载宋体文件:点击下载把文件放到 /usr/share/fonts/simsun.ttc 依次执行如下命令 mkfontdir mkfontscale fc-cache -fv 以下显示操作成...

python--selenium--PhantomJS--centos6.5版本(网页截图)

CleverCode的博客

05-08

350

1 python安装selenium包 # pip install selenium==3.11.0 -i https://pypi.doubanio.com/simple 2 PhantomJS安装 # wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 # tar ...

关于SASS中SCSS中文乱码的问题

拌面鲈鱼的博客

09-17

307

ruby环境sass编译中文出现Syntax error: Invalid GBK "\xE5" sass文件编译时候使用ruby环境无法通过。这个问题的奇葩之处在于在xp环境中没有任何问题，只是在windows7环境中才出现的这个。解决办法： 1.命令行工具同理找到ruby的安装目录，里面也有sass模块，如这个路径： C:\Ruby\lib\ru...

5110-微信小程序健身房私教预约微信小程序+ssm（源码+数据库+lun文）.zip