简单python爬虫之BS4框架介绍及简单示例:
侵权或其他原因请联系删除 修改
总所周知python有着比较好的对于数据的的“亲和力”,是数据科学家十分喜爱的编程语言,其内置了许多其他的库,使操作起来有着诸多的便捷。python对于数据的获取上,比如说,在网络爬虫的传统应用领域,即对于数据的抓取等方面有着许多的先天优势。目前,比较流行的爬虫框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能够独当一面的Python类库。在这里,我们简单介绍一下这其中的HTML解析工具beautifulsoup库。
首先,介绍beautifulsoup(之后均简称为BS4)的原因是,作为爬虫入门级的框架之一,它上手快捷,语句简单,思路好懂,实乃既是爬虫初学又想很快看到一些实际效果的小伙伴学习使用的必学利器。其次,介绍BS4是由于在上个小项目中实际运用到的爬虫框架,而且实际获取到了数据,比较方便展示以及理解,所以选择了这个来做一些讲解。
简介:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。
就我个人理解来说,使用BS4就是首先,你需要告诉计算机你需要从哪个网站去获取信息(在这里需要注意,许多的网站都有反爬机制以及一些协议上的问题,这些问题的解决需要更加深度的了解以及学习,而且呢,这种东西一定是办法比困难多,只要多去了解方法一定可以获得你想获得的信息,这里示例是爬取的贝壳租房网,我们可以很简单的获取房屋信息来使用),然后根据所获取到的东西,将之做成一锅“汤”,然后呢,你想要什么东西,直接从汤里边“舀”就可以了。当然具体如何实现,由下边的代码及部分示例来看:
项目要求:获取到房源的朝向,大小,租金,名字,租赁方式及厅室情况等相关信息
import bs4
import requests
data = requests.get('https://bj.zu.ke.com/zufang', timeout=300)
soup = bs4.BeautifulSoup(data.text, "html.parser")
图示代码将网址“https://bj.zu.ke.com/zufang”的内容获取到,包括网页源码中的全部信息(具体内容可以根据各自浏览器,使用右键单击页面的“检查”或者“查看网页源代码”看到),赋给代码中的data变量中,然后通过代码 soup = bs4.BeautifulSou