三种数据抓取的方法
正则表达式(re库)
BeautifulSoup(bs4)
lxml
*利用之前构建的下载网页函数,获取目标网页的html,我们以
https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例,获取html。
from get_html import download
url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
*假设我们需要爬取该网页中的国家名称和概况,我们依次使用这三种数据抓取的方法实现数据抓取。
1.正则表达式
from get_html import download
import re
url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p> (.*?)</p>', survey_data[0])
survey_info = ''.join(