python爬取酒店信息_Python 爬取美團酒店信息

事由:近期和朋友聊天,聊到黃山酒店事情,需要了解一下黃山的酒店情況,然后就想着用python 爬一些數據出來,做個參考

主要思路:通過查找,基本思路清晰,目標明確,僅僅爬取美團莫一地區的酒店信息,不過於復雜,先完成一個小目標

環境:

python 3.6

主要問題:

1. 在爬取美團黃山酒店第一頁后,順利拿到想要的信息,但在點擊第二頁后,chrome中檢查信息能夠看見想要的信息,但是查看源代碼卻沒有,思考后,應該是Ajax動態獲取的,然后查找辦法,最終通過selenium模擬瀏覽器,然后進行爬取

2. 標簽查找,通過chrome進行分析整體網站標簽信息后,對某一個標簽的class未清楚認識,導致錯誤認識,消耗比較長的調試時間

代碼如下:

importrequestsfrom bs4 importBeautifulSoupfrom selenium importwebdriverfrom selenium.webdriver.common.desired_capabilities importDesiredCapabilitiesimportxlwt

url= 'http://hotel.meituan.com/huangshan/'

#獲取酒店分頁信息,返回最大頁碼

defget_page_num(url):

html=requests.get(url).text

soup= BeautifulSoup(html,'lxml')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值