#前言html
先看爬到的信息:python
今天主要用到了两个库:Requests和BeautifulSoup。因此我先简单的说一下这两个库的用法,提到的都是此文须要用到的。编程
#Requestsbash
requests是一个很实用的Python HTTP客户端库。ui
下面经过一个例子来了解一下:编码
网址就用房天下的天津整租租房信息“http://zu.tj.fang.com/house/n31/”spa
import requests
#请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
}
#Get请求-并传递headers
data=requests.get("http://zu.tj.fang.com/house/n31/",headers=headers)
print(data.text)
复制代码
若是正常的话打印出来的就是以下,这里只截取一部分:code
requests请求也会出现异常,这里我就先不细说了,能够去此网址查下具体用法:orm
http://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlcdn
另外上面的代码中的headers是如何来的呢?这里给你们讲一下:
请求头的添加方法:
**1.**打开你要爬取的网址,在空白处右键-->检查,而后点击Network