python爬虫简单步骤_2，简单的Python爬虫

最新推荐文章于 2020-12-30 13:32:20 发布

weixin_39525933

最新推荐文章于 2020-12-30 13:32:20 发布

阅读量37

点赞数

文章标签： python爬虫简单步骤

前言

根据上一篇 1，Python爬虫环境的安装我们已经在本地安装好了Python环境，那么这一篇就开始学习如何用Python来爬虫！

环境：操作系统：Windows10

IDE： PyCharm2018.1

解释器：python3.6

1，只需短短4行

或许Python爬虫给大家的感觉就是比较高级，比较牛逼的一项技术，而其实呢，它的核心代码就只有以下几行！（至少对于初学者来说，只需要知道它如何使用）

1 import requests #导入requests模块。如果报错，就是没有安装该模块；安装：鼠标点击红色部分->【ALT+回车】->回车。或在命令行使用pip install requests安装。

3 url = "http://www.baidu.com" #要爬取网站的网址，一定要加http://

4 page = requests.get(url) #模拟请求（与浏览器原理相同）

5 print(page.text) #输出网站的源码（HTML代码）

2，对比

一开始大家(包括我自己)接触比较多的可能是urllib和urllib3；python2用的是urllib和urllib2，在python3中已经没有urllib2了，所以在看教程的时候一定要看清是python2还是python3。

其实用哪个库都没有太大关系，因为他们其实都是在底层实现了HTTP协议，然后自己再把接口封装以下，理解了原理其实都是差不多的；但是推荐大家使用requests库(我看很多大牛都推荐这个)，他是个第三方库(不是python自家的)，所以需要安装，代码中给出了安装方法。这个库给我的感觉就是使用起来更加简单，可读性很好，比较符合Python的风格，大牛们推荐他可能还有其他原因，有待学习！

3，解析

所谓爬虫，其实也就是在互联网这张大网中筛选我们需要的信息。上面的代码只是把整个页面的内容下载下来了，并没有什么实际作用。而我们实际需要的是其中的一些图片或者某些文字，那就需要对这些下载下来的内容进行解析了，最简单粗暴的方法是使用正则(re)表达式来匹配(这是必备的，网上有很多学习教程)；而更好的方法是先使用xpath(一种解析html文档的语法)获取想要的内容，然后再用re处理获取的内容，使内容更符合我们需要。

4，要学什么

上面是让大家更好地理解爬虫，和基本步骤；下面就是初学需要学些什么东西：

爬虫三部曲：

1，下载页面：使用requests下载网站页面；学习requests模块的基本使用。

2，解析页面：在下载下来的页面中获取想要的信息；学习lxml模块，re模块，xpath语法和re语法的基本使用。

3，保存信息：把解析后的信息保存到本地(先学会保存到Excel表)；学习xlwt模块。

weixin_39525933

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫简单步骤_2，简单的Python爬虫

前言根据上一篇 1，Python爬虫环境的安装我们已经在本地安装好了Python环境，那么这一篇就开始学习如何用Python来爬虫！环境：操作系统：Windows10IDE： PyCharm2018.1解释器：python3.61，只需短短4行或许Python爬虫给大家的感觉就是比较高级，比较牛逼的一项技术，而其实呢，它的核心代码就只有以下几行！（至少对于初学者来说，只需要知道它如何使用）1 ...
复制链接

扫一扫

python爬虫简单步骤_2，简单的Python爬虫

“相关推荐”对你有帮助么？