1. 初学python爬虫

初学python爬虫

看了几个星期廖雪峰老师的python教程之后,总发现学完新的东西,旧的就忘了。所以还是打算直接上路写爬虫了,边写边学python的基础知识。

python版本:python3.5

然而,作为一个萌新,我当然还是从urllib库开始学起。
要用这个工具,我当然是要去了解它怎么用。所以我去了官网查了一查。
(我好像找不到中文文档….)

image1

urllib.request是用来打开和读取URLs,所以是要用到urllib.request。

1. 一个简单的小例子

那我们去爬取python的首页试试:

# -*- coding:utf-8 -*-
from urllib import request

def scrapy(url):
    response = request.urlopen(url)
    html = response.read().decode('utf-8', 'ignore')
    print(html)

if __name__ == '__main__':
    scrapy('https://www.python.org/')

第一次并不顺利,控制台显示如下:

这里写图片描述

大概就是,该网页有GBK不能解码的字节。
但我用的解码格式为utf-8(这是python首页使用的字符集)

由于解决过程,看了太多大神的博客,所以就直接贴出解决的方法。
先说一下原因,原因大概就是因为我的控制台默认输出字符集是GBK。
所以我们要更换一下控制台的输出字符集,即使用sys库.
sys库就是用来和系统交互用的, 下面代码我们将系统输出改为utf-8
代码更改为:

# -*- coding:utf-8 -*-
from urllib import request
from urllib.request import Request
import sys
import io

def scrapy(url):
    request1 = Request(url)
    response = request.urlopen(request1)
    html = response.read().decode('utf-8','ignore')
    print(html)

if __name__ == '__main__':
    sys.stdout=
    io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
    scrapy('https://www.python.org/')

这样我们就把这个网页下载下来啦。

这里写图片描述

先暂时学到这里吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值