用Python 3000 写点有用的东西 - 解析网页

最新推荐文章于 2023-06-01 08:23:37 发布

iteye_15896

最新推荐文章于 2023-06-01 08:23:37 发布

阅读量125

点赞数

分类专栏： Python 文章标签： Python F# Google Java HTML

Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

读网页

1. 打印出网页


import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line)
finally:
    f.close()

显示出来的比较乱，尤其是中文没有显示出来。

2. 解决中文问题
[quote]hello.txt
中文显示测试
中文！[/quote]


f = open("c:/hello.txt")
try:
    for line in f:
        print(line)
finally:
    f.close()

看来直接显示中文没有问题。

3. 尝试decode


import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line.decode('cp936'))
finally:
    f.close()

搞定！'cp936'是什么？有人说就是指系统里第936号编码格式，也就是GB2312。也有人说就是GBK。Anyway，正常显示出来了。下一步尝试用html.parser — Simple HTML and XHTML parser

4.用html.parser
顾名思义，html.parser就是用来解析HTML文本文件的。是Python标准库之一。


import urllib.request
from html.parser import HTMLParser

url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
source = f.read().decode("cp936")

parser = HTMLParser()
parser.feed(source)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_15896

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用Python 3000 写点有用的东西 - 解析网页

读网页1. 打印出网页[code="java"]import urllib.requesturl = 'http://www.google.cn/'f = urllib.request.urlopen(url)try: for line in f.readlines(): print(line)finally: f.close(...
复制链接

扫一扫