python-scrapy爬取网页编码为gb2312

最新推荐文章于 2020-11-26 06:10:19 发布

dlnj93539

最新推荐文章于 2020-11-26 06:10:19 发布

阅读量755

点赞数

文章标签： python shell

原文链接：http://www.cnblogs.com/chenminyu/p/10467546.html

版权

最近两天在学scrapy,发现爬取编码为gb2312的网页时出现错误，解决后又出现中文乱码问题，弄了两天终于解决了

1.（测utf-8/gb2312可以成功调码解码）

1. import chardet

print(chardet.detect(title))

py3用库chardet可以查看网络编码方式

先用encode编码成bytes

再用decode编码成str

代码如图

for t in response.xpath('//title'):
    title=t.extract().encode(response.encoding)#重点1
    print(chardet.detect(title))
    title= title.decode(response.encoding,errors='ignore')#重点2
    print(title)

这样访问就解决了scrapy访问gb2312出现的问题已经中文乱码问题

转载于:https://www.cnblogs.com/chenminyu/p/10467546.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dlnj93539

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

如何使用 Python 爬虫 Scrapy 获取网页（某度）内容？

weixin_43263566的博客

06-08

1703

如何使用 Python 爬虫 Scrapy 获取网页内容？

scrapy 智联 mysql_Python利用Scrapy爬取智联招聘和前程无忧的招聘数据

weixin_32629285的博客

01-28

789

爬虫起因前面两个星期，利用周末的时间尝试和了解了一下Python爬虫，紧接着就开始用Scrapy框架做了一些小的爬虫，不过，由于最近一段时间的迷茫，和处于对职业生涯的规划。以及对市场需求的分析，我通过网上查阅资料。对比较大的前程无忧和智联招聘进行了数据爬取。这里我们以智联招聘为例做一些讲解。前期准备首先我在我自己做爬虫之前就已经规划好了我需要爬取什么数据，并且创建了数据库表，并提前对网页内容有大概...

参与评论您还未登录，请先登录后发表或查看评论

python 爬取编码（charset）为gbk的网页

大葱敏的博客

10-27

7004

最近因为安卓作业需要，要对王者荣耀的官方网站进行爬取，然而在最开始便遇到了一些问题，王者荣耀官网的网页charset=gbk，所以爬取时需要进行编码转换，然而转换后却依旧中文乱码，经过查找，发现以下两种解决办法：第一种： req = requests.get(headers=header, url=url) content = req.content print cont...

Scrapy采集gb2312编码的网页乱码

小龙在线

07-15

834

采集中文编码的网站，采集的数据是乱码，就是把中文编码用UTF-8格式保存起来了，这样就导致了乱码。

python 爬虫 GB2312 乱码

wlddn的博客

11-23

339

python 爬虫 GB2312 乱码问题话不多说上图解决

python-scrapy框架爬取以“GBK”编码的网页

zy的博客

02-18

1218

网页编码方式的查看方法 scrapy框架爬取以“GBK”编码的网页

python获取html编码GB2312中文乱码的问题

飞奔的猫的专栏

05-19

1314

GB18030涵盖了GB2312和GBK # coding:utf-8 import sys import urllib2 import re from BeautifulSoup import BeautifulSoup reload(sys) sys.setdefaultencoding('utf-8') url='http://www.led.hc360.com/' reques

Python网络爬虫--项目实战--scrapy爬取人人车

weixin_50267049的博客

11-13

1196

一、目标爬取多页人人车的车辆信息二、分析 2.1 网站分析在网页源代码中可以搜索到页面中的数据，所以可以判断该页面为静态加载的三、完整代码 renrenche.py import scrapy from car.items import RrcItem class RenrencheSpider(scrapy.Spider): name = 'renrenche' allowed_domains = ['www.renrenche.com'] start_urls =

精选_python爬虫--爬取网站中的多个网页_源码打包

03-12

本资源“精选_python爬虫--爬取网站中的多个网页_源码打包”提供了爬取网站多个网页的源码，帮助初学者或开发者更好地理解和实现网页爬取。在Python中，最常用的爬虫库是BeautifulSoup和Scrapy。BeautifulSoup库...

使用python的scrapy模块爬取文本保存到txt文件

12-23

使用python的scrapy爬取文本保存为txt文件编码工具 Visual Studio Code 实现步骤 1.创建scrapyTest项目在vscode中新建终端并依次输入下列代码： scrapy startproject scrapyTest cd scrapyTest code 打开项目...

【学习笔记】python爬虫获取GBK编码网页的转换

Lixaolin的博客

08-08

3688

爬取某个GBK编码的网站页面时，发现获取到的信息是这样的 title=ÏÂÔÂÆð´Ó³É¶¼¿ÉÖ±·ÉºÕ¶ûÐÁ»ù È«³Ì½öÐè9Ð¡Ê± 2019Äê08ÔÂ08ÈÕ07:40 À´Ô´£ºËÄ´¨ÈÕ±¨ Ô±êÌâ£ºÏÂÔÂÆð ³É¶¼Ö±·ÉºÕ¶ûÐÁ»ù ¡¡¡¡8ÔÂ7ÈÕ£¬ËÄ´¨º½¿Õ¹«Ë¾Í¸Â¶£¬½«ÓÚ9ÔÂ16ÈÕÐÂ¿ª³É¶¼Ö±·Éº...

python爬虫scrapy框架爬取网页数据_Scrapy-Python

weixin_39942637的博客

11-26

281

scrapyScrapy：Python的爬虫框架实例Demo抓取：汽车之家、瓜子、链家等数据信息版本+环境库Python2.7 + Scrapy1.12初窥Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。应用生成带 json的数据文件 $ scrapy crawl car -o Trunks.js...

python读取文件编码错误.decode('GB2312', errors='ignore')解决

qq_20936501的博客

03-11

9300

with open(file=file_, mode='rb') as read_file: # print(read_file.read()) # article = '' # for line in read_file: # line = line.decode('utf-8').rstrip('\n') # 删除 string 字符串末尾的指定字符...

编码解码问题.decode(encoding='gbk', errors='ignore')

热门推荐

王轩的博客

03-21

1万+

编码解码问题在一次请求一个网页的过程中，遇到一个问题，代码如下：这是解决了问题之后的代码 import urllib.request headers={'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'} request = urll...

解码错误。'gb2312' codec can't decode byte 0xf3 in position 307307: illegal multibyte sequence

BeefpasteC的博客

12-17

1146

错误处理方案，用于处理解码错误。默认值是‘strict’，这意味着解码错误会引发一个UnicodeDecodeError错误。其他可能的值是’ignore’ and ‘replace’，以及注册到编解码器的任何其他名称。register_error可以处理UnicodeDecodeError错误。 strict：严格按照给定的编码格式。 ignore：对于不符合编码格式的进行忽略。一般在dec...

基于scrapy的分布式爬虫（4）：python 中的编码问题

SchrodingerY-博客

03-26

738

python 中的编码问题很多时候，我们在写 python 代码时，会被各种编码格式搞得焦头烂额，譬如最常见的 unicode、ASCII、utf-8、gb2312 以及各类不同的 iso-xxxx。下面，我们来了解一下他们之间的关系以及在 python 中如何正确的进行转换。为什么会有各类编码？ unicode 与 utf-8 之间的关系？ python 中如何正确使用？ ...

【转】一次性解决所有的编码检测问题

weixin_30544657的博客

03-23

180

在日常使用中，我们难以避免会遇到编码转换问题。（如果编码是什么都不知道，请先看：什么是编码？）而进行编码转换的前提是你知道这个字符串使用的是什么编码。比如你使用 urllib.request.urlopen() 获取一个网页时，你特么如果不知道网页的编码会怎样？<ignore_js_op>直接 read().decode() 就可能会出现下边错误：<ignore_js_op&g...

scrapy中修改爬取数据的输出编码为utf-8

fuck487的博客

06-05

9839

本人是scrapy1.5版本在scrapy的settings.py文件中添加如下设置# 修改编码为utf-8 FEED_EXPORT_ENCODING = 'utf-8'旧的版本可能不行

解决python3编码问题的方法

趣玩-人工智能-弄潮儿

02-16

1万+

python3遇到错误“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”的解决方法如下：方法一：在环境变量中，设置PYTHONIOENCODING=utf-8 以centos为例执行：export PYTHONIOENCODING=

scrapy爬取的编码