收到某某某小师妹求助,写一个简单的爬虫把某个网站的国内机场以及对应的三字代码爬取下来,网上搜了一下爬虫入门的资料就开始写了。
屁话少说,上代码,注释都写好了,应该好理解。
#!/usr/bin/python
#引入漂亮汤
from bs4 import BeautifulSoup
#引入requests包,用来发送http请求
import requests
#引入xlwt包,用来写入excel文件
import xlwt
#引入xl包,用来读取excel文件
import xlrd
def getList(url):
#伪装成浏览器,嘿嘿
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER'}
#get从网页获取信息
res = requests.get(url,headers=headers)
#使用bs解析html文件,并且指定编码为gb18030(因为第四个页面竟然不是utf-8编码的,所以这里需要