Python爬虫教程-02-使用urlopen

                       

Spider-02-使用urlopen

做一个最简单的python爬虫,使用爬虫爬取:智联招聘某招聘信息的DOM

urllib

  • 包含模块
    • urllib.request:打开和读取urls
    • urllib.error:包含urllib.request产生的常见错误,使用try捕捉
    • urllib.parse:包含解析url的方法
    • urllib.robotparse:解析robots.txt文件
      robots:机器人协议,放在网站的开头,供给爬虫读取,当爬虫读到robots之后,就知道那些是允许爬取的数据,哪些是禁止爬取的数据
      (爬虫道德问题:1.不许过频繁爬取 2.不许爬取禁止内容)

案例v1

   # py01v1.py   from urllib import request   # 使用urllib.request请求一个网页的内容,并把内容打印出来   if __name__ == '__main__':       # 定义需要爬的页面       url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"       # 打开相应url并把页面作为返回       rsp = request.urlopen(url)       # 按住Ctrl键不送,同时点击urlopen,可以查看文档,有函数的具体参数和使用方法       # 把返回结果读取出来       html = rsp.read()       print(html)
  
  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

上面简单几行代码就可以爬取页面的HTML代码了
 右键运行,截图如下
 这里写图片描述
  但是,我们爬取到的代码是不能自行显示中文的,需要解码处理
   py02v1.py文件:
https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py02v1.py

   # py02v1.py   from urllib import request   if __name__ == '__main__':       url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"       rsp = request.urlopen(url)       # 按住Ctrl键不送,同时点击urlopen,可以查看文档,有函数的具体参数和使用方法       html = rsp.read()       # 解码       html = html.decode()       print(html)
  
  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

解码后效果:
  这里写图片描述
  恭喜你,最简单的爬虫就已经学会啦!
如果运行失败,可能是
1.【爬取的连接失效】,更换最新的地址就可以了
2.【Python环境问题】,这里不做仔细介绍,请自行【百度】解决,也可联系博主
 QQ:1370911284
 微信:18322295195

更多文章链接:Python 爬虫随笔


-  本笔记学习于图灵学院python全栈课程
 -  本笔记不允许任何个人和组织转载

           
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值