第一步先确认要抓取的地方是否是和我的一样(如果是请继续浏览,如果不是请自便)
确认过眼神,这就是你想要爬取的网页那就往下浏览把
(1)先获取所有的城市列表。
可以自己整理一份,也可以爬取网络上的城市列表。由于爬取过飞猪的城市列表,所以就没爬取携程的。这里我把爬取飞猪城市列表的代码分享一下。大家可以参考。
//获取飞猪的城市列表
$url = "https://webresource.c-ctrip.com/code/cquery/resource/address/flight/fuzzy_start_poi_timezone_gb2312.js??CR_2016_04_26_00_00_00";
$ch = curl_init();
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_REFERER, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
$result = curl_exec($ch);
curl_close($ch);
$city = array();
preg_match_all('/\((.*?)\)/i',$result,$city);
$city = $city['1'];
$city_1 = array();
foreach ($city as $key=>$value) {
if (strlen($value) != 3) {
unset($city[$key]);
}
}
$citys = array_merge($city,$city_1);
$cityName = array();
foreach ($citys as $val) {
$cityName[$val] = $val;
}
获取到的数据如下
(2)确认是否获取到了城市列表。获取到了就开始爬取。
我爬取的是 单程/往返 出发地 到 全世界的数据 代码如下
foreach ($cityName as $value) {
$city = $value;
$url = 'https://flights.ctrip.com/fuzzy/search';
$da = '{"inputDepartureCity":"$city","inputDepartureCityName":"null","travelType":"ONEWAY","departStringDate":"任何时间","departDateRanges":[],"maxDays":-1,"minDays":-1,"inputArrivalCities":{"themes":[],"cities":[],"areas":[]},"inputArrivalCitiesMap":{"themes":[],"cities":[],"areas":[],"filter":{}},"isSearchPage":true,"sortingType":"PRICE_ASC","isIncludedTax":true,"city_offset":480}';
$da = str_replace('$city', $city, $da);
$ch= curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);
//设置请求头信息 这里是json数据
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Content-Type: application/json;charset=utf-8'));
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_POST, 1);
if($da) {
$da = is_array($da) ? json_encode($da) : $da;
curl_setopt($ch, CURLOPT_POSTFIELDS, $da);
}
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_exec($ch);
$str = curl_exec($ch);
curl_close($ch);
// print_r($str);die;
}
这里便获取到了数据,数据如下
上面是获取的单程,国内和国际的所有机票信息。想获取往返的只需要将下图的这里改为"ROUNDTRIP"
第二步将获取的数据进行处理
当然我这里肯定有一份处理好的源码。但是代码过长不方便分享。
友情提示(如何获取携程数据的源码以经分享。如何处理这便靠自己。)
在提示一条(数据里面有国际/国内/包含税费/不包含税费所以处理的时候请认真对照网页上的数据找出规律)