爬虫爬下的html是乱码,pyhon爬虫中文乱码

最新推荐文章于 2022-09-08 21:45:03 发布

weixin_39764603

最新推荐文章于 2022-09-08 21:45:03 发布

阅读量262

点赞数

文章标签： Python爬虫中文乱码 GBK编码 BeautifulSoup json编码

pyhon爬虫中文乱码

爬到的网页，在调试模式看着是中文，用输出看也是中文，但是存入变量就编码格式不对了。

问题出现的环境背景及自己尝试过哪些方法

下面是源码

#coding: utf-8

import requests

import json

from bs4 import BeautifulSoup

url = 'https://www.3ajiepai.com/forum-190-1.html'

strhtml = requests.get(url)

# 由于目标是gbk，接受到的是乱码，所以这里需要转换编码格式

strhtml.encoding = 'gb18030'

soup = BeautifulSoup(strhtml.content, "html.parser")

print soup.original_encoding

print soup.title

data = soup.select('#waterfall li')

list = []

for item in data:

imgs = item.find('img')

name = item.select(".xw0 a")[0]

author = item.select(".auth.cl .a_name a")[0]

names = name.text.encode("utf8")

result = {

"name": names,

}

print (result)

list.append(result)

print (list)

# 写入本地文件

test_dict = { 'start': list}

json_str = json.dumps(test_dict)

new_dict = json.loads(json_str)

with open('data.json', 'w') as f:

json.dump(new_dict, f)

print("写入文件完毕。。。")

下图是调试模式图片

bVbxJoj?w=1458&h=1508 、

下图是控制输出图片

bVbxJok?w=2262&h=1198

下图是生成文件图片

bVbxJos?w=1954&h=184

求大神帮忙解决中文编码乱码问题，不胜感激。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39764603

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

linux运行python乱码_linux下python中文乱码解决方案详解

weixin_39946266的博客

12-03

2228

linux下python中文乱码解决方案详解1. 场景描述linux服务器下安装了Anaconda3，执行Pyhton的K-means算法，结果出现如下图的中文字符乱码。上次已经解决了，忘记记录解决流程了，这次配置了一台新的服务器，又出现，默认不配置的话matplotlib画图就会乱码，这次把解决过程记录下，希望能帮助自己和有需要的朋友。2. 解决方案网上有好几个解决方案，只介绍自己实战可行的。1...

Pyhon+lxml+xpath快速实现网页爬虫（比BeautifulSoup好用）

胡LiuJia@BLOG

01-30

808

你也可以通过我的独立博客—— www.huliujia.com 获取本篇文章背景最近因为工作需要写爬虫，以前用过BeautifulSoup，所以很自然的无脑上BeautifulSoup了，不过使用过程中发现BeautifulSoup有一个致命的缺陷，就是不能支持XPath。XPath可以快速在结构化的文档（如XML，HTML）中查找、访问元素的语言，语法比正则表达式还要简单，非常容易使用。在浏览器中其中可以方便地获取任何目标元素的XPath，简单来说XPath和文件路径很像，通过文件路径可以快速定.

参与评论您还未登录，请先登录后发表或查看评论

html 乱码_爬虫-网页乱码

weixin_39682944的博客

11-27

450

很多同学会遇到Python爬虫得到的HTML乱码的问题。其实这个问题搞清楚逻辑，就能够解决。一般爬虫import 点开html中的链接，看到乱码了。图1：乱码2. 问题处理①首先，在google中输入电影“无名之辈”的链接（https://www.ygdy8.com//html/gndy/dyzz/20190104/58016.html），然后Ctrl+U，查看源代码页。图2：点开google浏览...

爬取网站时返回的html是乱码问题解决

西门一刀的博客

08-01

1435

在爬取网站新闻时发现，返回的html代码中中文是乱码

爬虫爬取中文文本和标签内容乱码问题解决（并顺便解决了如何将xpath对象以列表的形式存储）

qq_41562735的博客

12-07

1193

最近写爬虫的时候爬取中文文本时，遇到中文乱码，试了很多方法头都大了终于找到一种自己可以解决乱码的方法（本次爬虫中使用的是request+xpath解析的组合）： from lxml import etree import pandas as pd import requests #定义两个列表 cont=[] cont_text=[] #这一步就是请求数据嘛，并且返回byte型数据， r=requ...

爬虫乱码问题（中文乱码）

m0_62364283的博客

08-22

490

爬虫简单乱码，目前只找到一种解决办法有的话可以补充

str字符串 encoding( ) 方法

weixin_30578677的博客

08-27

1868

描述 encode() 方法以指定的编码格式编码字符串。errors参数可以指定不同的错误处理方案。语法 encode()方法语法： str.encode(encoding='UTF-8',errors='strict') 参数 encoding -- 要使用的编码，如: UTF-8。 errors -- 设置不同错误的处理方案。默认为 'strict',意为编码错误引...

python爬虫编程实践 Task1--简单爬虫

Ajihappyer的博客

04-21

709

一个网络爬虫程序最普遍的过程： 1.访问站点； 2.定位所需的信息； 3.得到并处理信息。示例1：爬取python之禅（The Zen of Python） requests.get 获取HTML网页的主要方法，对应于HTTP的GET import requests url = 'https://www.python.org/dev/peps/pep-0020/' r = requests.ge...

常用正则表达式最强汇总（含 Python 代码举例讲解 + 爬虫实战）

wadfdhsajd的博客

09-08

211

本文带大家学习正则表达式，并通过 python 代码举例讲解常用的正则表达式最后实战爬取小说网页：重点在于爬取的网页通过正则表达式进行解析。

python读取ttf_Python爬虫杂记 - 字体文件反爬（一）

weixin_39553705的博客

11-24

646

ttf 文件反爬想写这篇文章的起源是在一个技术群里，有人讨论去哪网(手机端)的反爬：请求下来的数字跟浏览器上的数字有规律的不同，查看字体文件之后，发现字体文件中的数字位置颠倒了...，后有朋友老冀爬取汽车之家精品贴也出现了类似的情况，不太清楚这种反爬的成本，但凭直觉将来这种反爬措施可能越来越普遍，拿汽车之家为例，遂记录之！源码在最后！！1. 开发者模式查看网页内容未显示正确字体的方框就是...

Python爬虫中文乱码问题

学习一定要有针对性的练习-实操！

02-07

1416

我们在爬虫输出内容时，常常会遇到中文乱码情况（以如下网址为例）。 https://chengdu.chashebao.com/yanglao/19077.html 在输出内容时，出现如下图的情况：解决爬虫中文乱码的步骤网址编码为gbk 查看网页源代码的head部分的编码：<meta http-equiv="Content-Type" content="text/html; charset=gb2312">，发现网页编码为gbk类型利用requests库的方法查看默认输出的编码

爬虫过程中解决html乱码和获取的文本乱码问题

brytlevson的博客

06-30

5771

爬中过程中解决html乱码和获取的文本乱码问题 response1 = requests.get(url=detail_url, headers=headers) responseText1 = response1.text 获取的html中有乱码，xpath解析出来的文本当然也有乱码。解决办法： responseText1 = response1.text.encode(‘iso-8859-1’) utf-8也不行，用iso-8859-1 # coding=utf-8 import requests f

Python爬虫——爬取网页时出现中文乱码问题

热门推荐

lucky_shi的博客

03-02

4万+

网页字符乱码处理一、查看原网页编码的方式 1.首先呢，咱来说说如何在网页中查看编码方式，以爱奇艺为例，爱奇艺进入爱奇艺网页页面，鼠标 “右击–>检查–>点击Console–>输入document.charse 即可显示出网页的编码格式,如图：![在这里插入图片描述](https...

html页面网页打开乱码怎么解决方法,网页乱码怎么解决？

weixin_35172715的博客

06-03

1965

网站乱码是网站开发者都会遇到的问题，下面本篇文章就来给大家介绍几种网站乱码的解决办法。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。我们先看看什么是网站乱码那我们先分析一下乱码的几种原因一种情况是网站meta声明的是utf-8编码，但是文本编码是GBK ，这个时候我们就需要meta和文本编码一致meta声明的编码是uft-8用notepad查看文本编码是GBK文本编码是ANSI这...

爬虫下来的网页中文乱码解决

LOVEYSUXIN的专栏

12-04

865

# -*- coding:UTF-8 -*- import requests if __name__ == '__main__': target = 'http://www.biqukan.com/1_1094/5403177.html' req = requests.get(url=target) print(req.text) 运行结果： print(req...

Scrapy爬虫之中文乱码问题

自封的羽球大佬

08-28

9678

问题描述： I. #这是.csv格式的文件，有中文乱码现象。 [root@Uu jianshu]# cat jianshu.csv url,title,author http://www.jianshu.com/p/2a7a594816e1,彖浣犳村?鏍? [root@Uu jianshu]# ...

python爬虫入门练习一静态页面文本爬取 (html内中文乱码问题处理)

蒟蒻的最后的倔强

11-09

975

1.前置知识 html一些知识 python基本语法简单的一些爬虫库api调用 2.所用到的包 requests bs4 import BeautifulSoup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库(可以理解为一个处理文本工具吧) os sys 3.我练习所遇到的问题部分页面文本get下来出现大量 /x84/xxx/xxx 格...

python爬虫html乱码_如何解决python写入html文件中乱码的现象（图文详解）

weixin_34873494的博客

01-29

726

python写入html文件中文乱码问题使用open函数将爬虫爬取的html写入文件，有时候在控制台不会乱码，但是写入文件的html中的中文是乱码的案例分析看下面一段代码：# 爬虫未使用cookiefrom urllib import requestif __name__ == '__main__':url = "http://www.renren.com/967487029/profile"rs...

python 爬虫网页乱码问题解决方法

python_wsc的博客

05-09

1万+

在使用python爬取网页时，经常会遇到乱码问题，一旦遇到乱码问题，就很难得到有用的信息。本人遇到乱码问题，一般有以下几个方式：1、查看网页源码中的head标签，找到编码方式，例如：在上图中，可以看到charset='utf-8',说明这个网页很大可能是采用‘UTF-8’编码（是很大可能，但不是百分之百），因此可以试试这个编码方式：result = resp...

网络爬虫数据存储为json文件pyhon代码