python爬虫教程大全_python爬虫入门教程

最新推荐文章于 2024-05-02 14:10:30 发布

weixin_39745345

最新推荐文章于 2024-05-02 14:10:30 发布

阅读量309

点赞数

文章标签： python爬虫教程大全

爬虫是一个是一个好玩的技术，偷偷爬取mm的照片，爬取知乎用户头像等等，这些教程经验帖在网上随便一搜，到处都是；那么今天小编将给大家简单讲讲python爬虫的入门。鉴于经验排版模式有限，所以这里只能简单的介绍，如有详情可以私下交流。

工具/原料

一台能上网的电脑

Python

步骤一：python的下载

python爬虫，首先需要本地电脑上安装有python，这里我简单说一下python的安装，我相信学爬虫的同学们肯定有一定的python基础了。

首先，进入到python官网，你可以直接输入python主页，也可以从百度搜索框进入到python的主页，这里方法很多，我不在一一例举了，然后在主页上面可以看见Downloads字样，点击下载，然后跳转出下载界面。

994f412043715fdb1d71648e468920c5270f8ce5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

跳转出python下载界面，选择一个版本进行下载，这里的我3.X和2.7.X版本的差别还是蛮大的，这里我就不在累赘了，python2.7的支持包要更加全面完善，python3的包扩展可能比较少，但是正在慢慢开发；python2.7预计在202X停止更新了；但是由于小编的习惯，这里我选择的是2.7版本。

89402670d5413a8c9e5978bb1ffc508c9ace81e5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

下载好后，点击安装包，依据提示点击下一步即可，这里相信大家没有任何的问题。

5c9c964ce54a2f27a4bef5b2e00192dd3240f4e5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

安装好后，按windos键加R键，弹出运行窗口，在运行窗口输入cms进入到命令行界面，然后输入python，如果安装成功，即可进入到python交互界面，如果没有则表示python没有安装成功。

9881b1fce186242fe72349ab35e434daf15ee8e5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

a68c126efbf202b32b8644cf30f4da5873dadbe5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

步骤二：爬虫准备

爬虫首先需要做的事情就是要确定好你想要爬取数据的对象，这里我将以百度主页logo图片的地址为例进行讲解。

ac45306817e951e164a985e25e3da824d9e9cfe5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

首先，是打开百度主页界面，然后把鼠标移动到主页界面的百度logo图标上面，点击鼠标右键，然后点击审查元素，即可打开开发者界面。

84010e2a04e23ea24c137dce2b10bc33ed38c3e5.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

然后再下面的界面里面，可以看到该logo图标在HTML里面的排版模式，，这里百度我用字替换了。

35fa07efa25f0c14bd2a0f360d89a146b6b138ea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

步骤三：开始爬虫

爬虫主要分为两个部分，第一个是网页界面的获取，第二个是网页界面的解析；爬虫的原理是利用代码模拟浏览器访问网站，与浏览器不同的是，爬虫获取到的是网页的源代码，没有了浏览器的翻译效果。

首先，我们进行页面获取，python爬虫的话很多模块包提供给开发者直接抓取网页，urllib，urllib2，requests（urllib3）等等，这里我们使用urllib2进行网站页面的获取；首先导入urllib2模块包（该包是默认安装的）：import urllib2

7efc527c34b33c41baeb0ef5887de137c8762eea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

导入模块包之后，然后调用urllib2中的urlopen方法链接网站，代码如下repr = urllib2.urlopen("XXXXXX"),XXXXXX代表的是网站名称。

ce26355fd54605962c4529643e03c8d247fe25ea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

得到网站的响应之后，然后就是将页面的源代码读取出来，调用read方法，html = repr.read()

32fe25ef354f50b82b6f756fdc4afa32929c18ea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

获取到页面的源代码之后，然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来，解析界面的模块包有很多，原始的re，好用的BeautifulSoup，以及高大上的lxml等等，这里我就简单的用re介绍介绍，首先导入re模块包：import re

cf6d451b1edef4dc0b68ceab45ecd3d968750cea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

然后进行利用re进行搜索，这里我有使用正则表达式，看不懂的同学需去补充点正则表达式方面的知识。

1f03436b04d1492923d9e4a763e5eceeacbc7eea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

然后，我这里就实现了一个简单的爬虫流程，打印url，可以看见刚好就是之前我们看见的百度主页logo的地址。

de9bfa3b3b8602218a064ee2d8bbf82065fb72ea.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

源代码：

import urllib2

repr = urllib2.urlopen("URL")

html = repr.read()

import re

省略一行代码

print url

END

注意事项

爬虫是一个比较深入的领域，这里的我只是讲解了非常非常简单的东西，如果有需要的可以和我深入讨论

希望大家喜欢，多多投票，多多支持

经验内容仅供参考，如果您需解决具体问题(尤其法律、医学等领域)，建议您详细咨询相关领域专业人士。

举报作者声明：本篇经验系本人依照真实经历原创，未经许可，谢绝转载。

展开阅读全部

weixin_39745345

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫教程大全_python爬虫入门教程

爬虫是一个是一个好玩的技术，偷偷爬取mm的照片，爬取知乎用户头像等等，这些教程经验帖在网上随便一搜，到处都是；那么今天小编将给大家简单讲讲python爬虫的入门。鉴于经验排版模式有限，所以这里只能简单的介绍，如有详情可以私下交流。工具/原料一台能上网的电脑Python步骤一：python的下载1python爬虫，首先需要本地电脑上安装有python，这里我简单说一下python的安装，我相信学爬虫...
复制链接

扫一扫