python爬虫教程大全_python爬虫入门教程

爬虫是一个是一个好玩的技术,偷偷爬取mm的照片,爬取知乎用户头像等等,这些教程经验帖在网上随便一搜,到处都是;那么今天小编将给大家简单讲讲python爬虫的入门。鉴于经验排版模式有限,所以这里只能简单的介绍,如有详情可以私下交流。

工具/原料

一台能上网的电脑

Python

步骤一:python的下载

1

python爬虫,首先需要本地电脑上安装有python,这里我简单说一下python的安装,我相信学爬虫的同学们肯定有一定的python基础了。

2

首先,进入到python官网,你可以直接输入python主页,也可以从百度搜索框进入到python的主页,这里方法很多,我不在一一例举了,然后在主页上面可以看见Downloads字样,点击下载,然后跳转出下载界面。

994f412043715fdb1d71648e468920c5270f8ce5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3

跳转出python下载界面,选择一个版本进行下载,这里的我3.X和2.7.X版本的差别还是蛮大的,这里我就不在累赘了,python2.7的支持包要更加全面完善,python3的包扩展可能比较少,但是正在慢慢开发;python2.7预计在202X停止更新了;但是由于小编的习惯,这里我选择的是2.7版本。

89402670d5413a8c9e5978bb1ffc508c9ace81e5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

4

下载好后,点击安装包,依据提示点击下一步即可,这里相信大家没有任何的问题。

5c9c964ce54a2f27a4bef5b2e00192dd3240f4e5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

5

安装好后,按windos键加R键,弹出运行窗口,在运行窗口输入cms进入到命令行界面,然后输入python,如果安装成功,即可进入到python交互界面,如果没有则表示python没有安装成功。

9881b1fce186242fe72349ab35e434daf15ee8e5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

a68c126efbf202b32b8644cf30f4da5873dadbe5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

步骤二:爬虫准备

1

爬虫首先需要做的事情就是要确定好你想要爬取数据的对象,这里我将以百度主页logo图片的地址为例进行讲解。

ac45306817e951e164a985e25e3da824d9e9cfe5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

2

首先,是打开百度主页界面,然后把鼠标移动到主页界面的百度logo图标上面,点击鼠标右键,然后点击审查元素,即可打开开发者界面。

84010e2a04e23ea24c137dce2b10bc33ed38c3e5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3

然后再下面的界面里面,可以看到该logo图标在HTML里面的排版模式,bd_logo1.png,这里百度我用字替换了。

35fa07efa25f0c14bd2a0f360d89a146b6b138ea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

步骤三:开始爬虫

1

爬虫主要分为两个部分,第一个是网页界面的获取,第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站,与浏览器不同的是,爬虫获取到的是网页的源代码,没有了浏览器的翻译效果。

2

首先,我们进行页面获取,python爬虫的话很多模块包提供给开发者直接抓取网页,urllib,urllib2,requests(urllib3)等等,这里我们使用urllib2进行网站页面的获取;首先导入urllib2模块包(该包是默认安装的):import urllib2

7efc527c34b33c41baeb0ef5887de137c8762eea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3

导入模块包之后,然后调用urllib2中的urlopen方法链接网站,代码如下repr = urllib2.urlopen("XXXXXX"),XXXXXX代表的是网站名称。

ce26355fd54605962c4529643e03c8d247fe25ea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

4

得到网站的响应之后,然后就是将页面的源代码读取出来,调用read方法,html = repr.read()

32fe25ef354f50b82b6f756fdc4afa32929c18ea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

5

获取到页面的源代码之后,然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来,解析界面的模块包有很多,原始的re,好用的BeautifulSoup,以及高大上的lxml等等,这里我就简单的用re介绍介绍,首先导入re模块包:import re

cf6d451b1edef4dc0b68ceab45ecd3d968750cea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

6

然后进行利用re进行搜索,这里我有使用正则表达式,看不懂的同学需去补充点正则表达式方面的知识。

1f03436b04d1492923d9e4a763e5eceeacbc7eea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

7

然后,我这里就实现了一个简单的爬虫流程,打印url,可以看见刚好就是之前我们看见的百度主页logo的地址。

de9bfa3b3b8602218a064ee2d8bbf82065fb72ea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

8

源代码:

import urllib2

repr = urllib2.urlopen("URL")

html = repr.read()

import re

省略一行代码

print url

END

注意事项

爬虫是一个比较深入的领域,这里的我只是讲解了非常非常简单的东西,如果有需要的可以和我深入讨论

希望大家喜欢,多多投票,多多支持

经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。

举报作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。

展开阅读全部

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值