python爬虫基础--------urllib模块的安装和简单使用

           好久不见,我的各位读者,好久没更新文章了,大家等急了吧,好了,今天我们学习一点厉害的,也是我当初一直念念不忘的----python爬虫。

           讲到爬虫,大家就可以联想到各种网站数据,大家注意,爬虫一定要小心爬。好了,废话不多说了,我们开始学习。

urllib模块的安装和使用

1.模块的安装

windows可以使用下列命令进行安装

pip install urllib

2.模块的使用

urlopen函数的使用

from urllib import request
#导入模块
url = 'https://baidu.com'
req = request.urlopen(url)
#使用urlopen访问网页
print(req.read().decode('utf8'))
#打印网页源代码

Request函数的使用

               现在不是所有的网站都可以使用上面那种方法来获取网页源代码,下面讲的这个可以通过设置请求头来绕过服务器的识别。

from urllib import request
url = 'http://www.qiushibaike.com'
req = request.Request(url, headers={
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0'
        })
res = request.urlopen(req)
print(res.read().decode('utf8'))

   3.bulid_opener函数

from urllib import request
import random
from urllib.request import build_opener,ProxyHandler
# User_Agent列表
user_agent_list = [
    "Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1",
    "Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1)",
    "Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",
    "Mozilla/5.0(Macintosh;IntelMacOSX10_7_0)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.56Safari/535.11",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)"
]
# 产生一个随机User-Agent
headers ={
    # 从上面列表中随机取出一个
    # random.choice:从一个不为空的课表里面随机取出一个
    'User-Agent':random.choice(user_agent_list)
}

# ip地址列表:
ip_list=[
    # '209.97.171.128',
    '114.250.25.19'
]
# 产生一个随机ip
proxies={
    'http':random.choice(ip_list)
}
url = 'http://www.qiushibaike.com/'
req = request.Request(url,headers=headers)
# 创建代理ip对象
print(proxies)
pro_supper = ProxyHandler(proxies)
# 不能使用urlopen()函数,使用build_opener创建一个对象
opener = build_opener(pro_supper)
# 发送请求
res = opener.open(req)
result = res.read().decode('utf8')
print(result)

   好了,今天先学到这里,以后我们会有更多的东西要学习                                                             

  • 9
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值