python 使用socks 爬虫_Python爬虫教程-02-使用urlopen

Spider-02-使用urlopen

做一个最简单的python爬虫,使用爬虫爬取:智联招聘某招聘信息的DOM

urllib

包含模块

  • urllib.request:打开和读取urls
  • urllib.error:包含urllib.request产生的常见错误,使用try捕捉
  • urllib.parse:包含解析url的方法
  • urllib.robotparse:解析robots.txt文件

robots:机器人协议,放在网站的开头,供给爬虫读取,当爬虫读到robots之后,就知道那些是允许爬取的数据,哪些是禁止爬取的数据

(爬虫道德问题:1.不许过频繁爬取 2.不许爬取禁止内容)

原文:

https://blog.csdn.net/qq_40147863/article/details/81434882​blog.csdn.net

案例v1

  • 使用PyCharm开发工具,配置python解释器,创建python文件)
   # py01v1.py
   from urllib import request

   # 使用urllib.request请求一个网页的内容,并把内容打印出来
   if __name__ == '__main__':

       # 定义需要爬的页面
       url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"
       # 打开相应url并把页面作为返回
       rsp = request.urlopen(url)
       # 按住Ctrl键不送,同时点击urlopen,可以查看文档,有函数的具体参数和使用方法

       # 把返回结果读取出来
       html = rsp.read()

       print(html)

上面简单几行代码就可以爬取页面的HTML代码了

右键运行,截图如下

c9d154c1e2ae6e9b7c53aeb6cde11d18.png

但是,我们爬取到的代码是不能自行显示中文的,需要解码处理

   # py02v1.py
   from urllib import request

   if __name__ == '__main__':

       url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"
       rsp = request.urlopen(url)
       # 按住Ctrl键不送,同时点击urlopen,可以查看文档,有函数的具体参数和使用方法

       html = rsp.read()
       # 解码
       html = html.decode()

       print(html)

解码后效果:

4bd987e9e04c059279f53f7aa0f4f529.png

恭喜你,最简单的爬虫就已经学会啦!

如果运行失败,可能是

1.【爬取的连接失效】,更换最新的地址就可以了

2.【Python环境问题】,这里不做仔细介绍,请自行【百度】解决,也可联系小编

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值