urllib简单网页抓取

最新推荐文章于 2023-10-14 10:24:04 发布

dadada~

最新推荐文章于 2023-10-14 10:24:04 发布

阅读量181

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/TravorPhilips/article/details/107173833

版权

python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

python网络爬虫学习

URL(父类是URI) ：统一资源定位符
构成：协议、主机、地址（protocol、host、path）
urllib包：抓取网页，处理URL，包含模块：

request：打开读取URL
error：（可以用try捕捉）
parse：解析URL
robotparser：可以测试一个页面是否可以被爬虫下载
用urllib实现简单的网页抓取

# -*- coding: UTF-8 -*-
from urllib import request
import chardet

if __name__ == "__main__":
    response = request.urlopen("http://fanyi.baidu.com")
    html = response.read()
    charset = chardet.detect(html) 
    html = html.decode(charset["encoding"])
    print(html)
    f = open('out.txt', 'w+', encoding='utf-8')
    f.write(html)
    f.close()

读取打印百度翻译的URL，用chardet包实现自动获取编码格式（手动可以从浏览器审查元素¹找）
urlopen可以处理string或request对象

	obj = request.Request("http://fanyi.baidu.com/")
    response = request.urlopen(obj)

request对象的其他函数：

geturl（）：返回URL
info（）：返回meta标记 ²的信息
getcode（）：返回http状态码 ³

注意：写入txt时要指定utf-8格式（默认gbk）
报错信息：

Traceback (most recent call last):
  File "C:/Users/MACHENIKE/PycharmProjects/untitled/crawler_demo1.py", line 12, in <module>
    f.write(html)
UnicodeEncodeError: 'gbk' codec can't encode character '\u0e02' in position 58895: illegal multibyte sequence

head标签-charset ↩︎
HTML标记head区的关键标签，位于head和title之间，描述一个HTML网页文档的属性，例如作者、日期和时间、网页描述、关键词、页面刷新等。 ↩︎
百度百科-HTTP状态码 ↩︎

dadada~

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
urllib简单网页抓取

python网络爬虫学习URL(父类是URI) ：统一资源定位符构成：协议、主机、地址（protocol、host、path）urlib包：抓取网页，处理URL，包含模块：request：打开读取URLerror：（可以用try捕捉）parse：解析URLrobotparser：可以测试一个页面是否可以被爬虫下载用urlib实现简单的网页抓取# -*- coding: UTF-8 -*-from urllib import requestimport chardetif
复制链接

扫一扫