去哪儿网获取信息

完整代码

import requests
import pandas as pd
from bs4 import BeautifulSoup
import time
data=pd.DataFrame()
for i in range(1,10):
print(‘正在爬取第%d页’%i)
url = ‘http://piao.qunar.com/ticket/list.htm?keyword=北京&page={}’.format(i)
headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36’}
response = requests.get(url,headers=headers)
response.encoding=‘utf-8’
soup = BeautifulSoup(response.text,‘lxml’)#对html进行解析,完成初始化
html=soup.select(‘div [class=“sight_item”]’)
itemslist=[]
for a in html:
it=[]
it.append(a[“data-sight-name”])#景点名称

    it.append(a["data-address"]) #地址
    
            
    b=a.select('div[class="clrfix"]')
    for i in range(len(b)):
            c=b[i].get_text()[0:4] #等级
            if "景区" in  c:
                it.append(c)
            else: 
                it.append("无等级")
                
    attr_list = a.select('span[class="sight_item_price"]')  # 门票
    for i in attr_list:
                 it.append((i.get_text().split()[0])+(i.get_text().split()[1])) 
    
    attr_list = a.select('span[class="hot_num"]')  # 销售数量
    for a in attr_list:
        it.append(a.get_text()) 

    itemslist.append(it)
    df=pd.DataFrame(itemslist)
data=pd.concat([data,df])
time.sleep(2)

data.columns=[‘景点名称’,‘地址’,‘等级’,‘门票’,‘销售数量’]
data.set_index(‘景点名称’)


爬取结果

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值