编程初衷
去年这会儿,实验室师兄论文需要获取短租房源数据,老师顺手就把任务给了我和一个同门:你们先下个几千张吧,不要多,先看看图片质量,后面再慢慢来。
几千张??还有后面??打扰了…
想着下载都是重复工作,应该可以用爬虫解决吧,虽然没写过!画个时间学一学也好过人工无差别劳动嘛~
综上 就开始我蒙逼又摸瞎的爬虫之旅
这里插播一条参考资料:崔庆才的个人博客 https://cuiqingcai.com/
里面对爬虫编写过程中会用到的模块都讲述的比较清晰,新手如我慢吞吞啃了一遍也能上手了,当然中间还是反复多次回看中间的案例和讲解。
目标数据:根据研究需求,我们需要获取的是Airbnb上plus房源和非plus房源的基本信息,包括但不限于图片、图片数量、房东信息(昵称、是否最佳房东等)、价格等。
数据背景:plus房源仅在部分城市推出,并未普及且各城市plus房源数量存在差异。
设计思路:
从plus房源入手,从plus分块主页面获取存在plus房源的城市列表和对应房源数量。
奉上网页链接:https://zh.air