前言
最近在做监控相关的配套设施,发现很多脚本都是基于Python的。很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言。随着人工智能、机器学习、深度学习的崛起,目前市面上大部分的人工智能的代码 大多使用Python 来编写。所以人工智能时代,是时候学点Python了。进军指南对于没有任何语言开发经验的同学,建议从头系统的学起,无论是书、视频还是文字教程都可以。
注意:很多人学Python过程中会遇到各种烦恼问题,没有人解答容易放弃。为此我建了个python学习资源群里面有最新学习资料,如果你想学python,可以关注我,后台私信我 ‘py’ 自动获取最新python教程资料!还有老司机解答哦!
如果是有其他语言开发经验的同学,建议从一个案例入手,比如爬取某个网站的套图。因为语言都是想通的,语法之类的只要你要语感,代码基本能读个八九不离十。所以不建议有经验的开发者从头学起,无论是视频还是书,对于开始学一门语言来说都是太浪费时间了。当然,等你深入进去以后,还是要系统的去学习,这是后话。
案例实现步骤以妹子图为例,其实很简单,分以下四步:
- 获取首页的页码数,并创建与页码对应的文件夹
- 获取页面的栏目地址
- 进入栏目,获取栏目页码数(每个栏目下有多张图片,分页显示)
- 获取到栏目下对用标签中的图片并下载
注意事项爬取过程中,还需要注意以下几点,可能对你有所帮助:1)导库,其实就类似于Java中框架或者是工具类,底层都被封装好了安装第三方库
- # Win下直接装的 python3
- pip install bs4、pip install requests
- # Linux python2 python3 共存
- pip3 install bs4、pip3 install requests
导入第三方库
- # 导入requests库
- import requests
- # 导入文件操作库
- import os
- # bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来解析html标签。
- import bs4
- from bs4