最近工作要收集点酒店数据,就到携程上看了看,记录爬取过程去下
从网站地图上可以很容易发现这个页面
2.然后查看源码
发现所有需要的数据都在
3.我们获取一下dl 这个元素和其中的所有子元素
我们用jsoup的jar包来解析获取的html,官网https://jsoup.org/,有API和jar包
String result = HttpUtil.getInstance().httpGet(null, "http://hotels.ctrip.com/domestic-city-hotel.html");
Document root_document = Jsoup.parse(result);
Elements pinyin_filter_elements = root_document.getElementsByClass("pinyin_filter_detail layoutfix");
//包含所有城市的Element
Element pinyin_filter = pinyin_filter_elements.first();
4.我准备把获取的城市数据存储