爬虫简单入门。由于工作需要,需要从网上爬取一些内容。在此记录一下开发过程遇到的问题
爬取航空公司信息。包括航空公司中英文名、二字码、三字码、呼号等信息。调研从
https://www.ufsoo.com/airline/page-12.html网站获取信息。信息格式为:
需要的内容包含<p>标签中。所以选择用beautifulsoup 的find_all获取所有p标签下的文本,并存储到txt文件。
完整代码:
#coding=utf-8
from bs4 import BeautifulSoup
#获得系统编码格式
import requests
head={
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',