使用urllib2解析html内容，并正常显示中文的方法分类： pytho...

最新推荐文章于 2021-06-18 21:09:50 发布

weixin_30583563

最新推荐文章于 2021-06-18 21:09:50 发布

阅读量115

点赞数

原文链接：http://www.cnblogs.com/think1988/p/4628035.html

版权

获得目标html的编码格式
按照此编码格式去解析html内容，就可以正常解析

import urllib2

target = urllib2.urlopen(" http://www.amazon.cn")

   print target.hearders #或使用target.info()，获得charset的内容为：utf-8 
 

   content=target.read().decode("utf-8") #此处对内容 
  进行 
  utf-8格式解码，否则print时会输出乱码 
 

print content #正确解码，显示正常中文

转载于:https://www.cnblogs.com/think1988/p/4628035.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30583563

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫开发之urllib模块详细使用方法与实例全解

python爬虫开发教程

03-24

1499

爬虫所需要的功能，基本上在urllib中都能找到，学习这个标准库，可以更加深入的理解后面更加便利的requests库。首先在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error 在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import ur...

python爬虫入门-学习urllib和requests使用，模拟请求

phper进阶

02-23

341

文章目录前言正文urllib介绍使用前言上篇我们里了解了爬虫的基本知识，这次我们来学习下，用Python模拟浏览器访问网站和登录。正文 Python如此方便，正是因为它提供了很多实现好各种功能的库，它内置了许多非常有用的模块，无需额外安装和配置，即可直接使用。同时也有很多第三方模块，我们只需要用好各种工具库和模块，就能实现很多方便的操作，用程序来代替繁琐的功能。这次我们来学习urllib和requests模块，实现模拟请求和登录吧 urllib介绍 Python内置的HTTP请求库，安装好Pytho

参与评论您还未登录，请先登录后发表或查看评论

python解析html页面_python之urllib2简单解析HTML页面之篇一

weixin_39843677的博客

11-28

236

一、urllib2简单获取html页面#!/usr/bin/env python#-*- coding:utf-8 -*-importurllib2response= urllib2.urlopen('http://www.baidu.com');html=response.read();print html简单的几行代码就能拿到html页面，接下来局势html的解析工作了。想象很美好，实际操作就...

抓取网页并解析HTML

VergiL Wang的专栏

08-09

202

http://www.lovelucy.info/python-crawl-pages.html 我觉得java太啰嗦，不够简洁。Python这个脚本语言开发起来速度很快，一个活生生的例子是因有关政策verycd开始自我阉割，有网友为了抢救资源，把整个verycd站爬了下来，镜像为SimpleCD.org。看了一下爬虫源代码，其实挺简单。使用方法： import urllib2 conten...

URL解析器urllib2

weixin_30751947的博客

04-05

urllib2是Python的一个库（不用下载，安装，只需要使用时导入import urllib2）它提供了一系列用于操作URL的功能。 urlopen urllib2.urlopen可以接受Request对象,urllib不能，本文采用urllib2 urllib2.urlopen(url, *data, *timeout) urlopen方法是urllib2模块最常用的方法，用于...

Python网络数据采集2：复杂HTML解析

Just for fun的专栏

12-26

942

2.1 不是一直都要用锤子如果直接HTML标签中的信息，网站管理员对网站稍微修改之后，爬虫就会失效，那么该怎么做呢？寻找“打印此页”的链接，或者接受网站移动版寻找隐藏在JavaScripy文件里的信息。虽然网页标题经常会用到，但是这个信息也许可以从网页的URL链接里获取寻找其他数据源 2.2 再端一碗BeautifulSoup Spider可以通过CSS中的Cla

Python 中利用urllib2简单实现网页抓取

seven_five577的博客

09-28

3201

网页抓取就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中，可以使用urllib2这个模块来抓取网页,模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据. HTTP是基于请求和应答机制的：客户端提出请求，服务端提供应答。以下实现了最简单的urllib2抓取网页。 #!/usr/bin/env python im

python解析html提取数据，并生成word文档实例解析

01-20

今天试着用ptyhon做了一个抓取网页内容，并生成word文档的功能，功能很简单，做一下记录以备以后用到。生成word用到了第三方组件python-docx，所以先进行第三方组件的安装。由于windows下安装的python默认不带...

从零到精通：构建Python网络爬虫的urllib.request使用指南

[python库文件学习之urllib.request](https://img-blog.csdnimg.cn/direct/1cca2cb5dd59411783b87d9c542d7b58.png) # 1. 网络爬虫与Python基础概念随着网络数据量的爆炸性增长，信息的自动化获取变得越发重要。...

python爬取豆瓣电影评论_python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法...

weixin_39586683的博客

11-23

1208

def getHtml(url):"""获取url页面"""headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}req = urllib.request.Request(url,h...

python解析URL中文关键字

sanms的专栏

09-08

3789

搜索引擎或者APP搜索时，其实生成的http链接中基本都带有UTF8或者其他编码的中文关键字，目前只做了UTF8的，其他编码可以通过字符范围筛选。以下为解析方法： import urllib import sys reload(sys) sys.setdefaultencoding('utf8') en=urllib.quote de=urllib.unquote

python 解析html

congcong7267的博客

07-09

413

获取制定标签内容，以及HTML全部文本代码 # -*- coding: utf-8 -*- import re html = "<html><div>岗位职责：完成推荐算法、数据统计、接口、后台等服务器端相关工作 <...

HTML解析（C# 包涵注释，全中文）

06-29

一款方便用于解析HTML代码的C# dll 程序集，内包涵各种方便快捷的操作方法，可以大大提高开发效率，可以像使用JS一样，根据id查找找指定的标签，等等。。。（纯中文注释，方便更多的开发者快速理解方法含义）

python知识捡拾---urllib模块及HTML文档解析

xioaf12的专栏

12-11

423

urllib模块可以完成的工作都可以使用urllib2来完成，当需要以比较灵活的方式访问 url资源的时候，就可以使用urllib2模块来实现 urllib2模块基本方法： fp = urllib2.urlopen("http://www.baidu.com") print fp.read()#从文件对象中读取资源 print fp.geturl() print fp.info().items()...

bs4 乱码_Python BeautifulSoup中文乱码问题的2种解决方法

weixin_42475535的博客

01-17

2786

Python BeautifulSoup中文乱码问题的2种解决方法解决方法一：使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码代码如下:from bs4 import BeautifulSoupimport urllib2url = 'http://www.jb51.net/'page = urll...

Python模拟登录网站并抓取网页的方法，详细

weixin_59071011的博客

06-18

2854

模拟登录的原理通常情况下，用户通过浏览器登录网站时，在特定的登录界面，输入个人登录信息，提交之后便能返回一个包含数据的网页。在浏览器层面的机制是，浏览器提交包含必要信息的http Request，服务器返回http Response。其中HTTP Request内容包括下面5项： URL=基本的URL+可选的查询字符串 Request Headers：必须或可选 Cookie：可选 Post data：当时POST方法时需要 http Response的内容包括以下两项： Html源码或者图片

Apache解析html文件中的中文字符出现乱码

自由的代价永远是警惕

01-05

3057

Apache解析html文件中的中文字符出现乱码，这是因为Apache得默认字符集是utf-8,而我编码时的用的是ANSI,只需要将html文件以UTF-8格式在保存一次即可打开。

python3 urllib2模块_哪个python模块代替urllib2用于python3和flask？

weixin_35565325的博客

03-01

151

事实上，这个问题也许可以用一个更好的措辞来表达，即要求一个最佳实践来实现这一点。这是令人沮丧的，因为这应该很容易。在我是在一本书《瓶子的例子》中学习教程的。我使用的是python3的最新版本。在python 3中找不到文本中使用的urllib2。从文本中，我们需要urllib2来下载数据，urllib需要正确编码参数。只有一个函数，get_weather，因为我找不到一个有效的更新方法。在我将列出...

使用urllib2解析html内容，并正常显示中文的方法 分类： pytho...

使用urllib2解析html内容，并正常显示中文的方法分类： pytho...