PHP爬取百度所有省市信息,简易抓取2018国家统计局的省市信息并导出到csv文件中(php)...

header("Content-Type: text/html;charset=UTF-8");

// 超时设置

ini_set('max_execution_time', '0');

//抓取地址

$url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/';

$data = curlGet($url);

$data = iconv("GBK", "UTF-8//IGNORE",$data);

preg_match_all('/provincetr\'>(.*?)/', $data, $matches);

if (empty($matches)) {

return '匹配异常';

}

$data2show = returnArr($matches[1]);

//得到省份信息

foreach ($data2show as $key => $val) {

preg_match('/=\'(\d{2}).html/', $val, $sz);

preg_match('/\'>(.{1,30})

$provinceArr[$sz[1]] = $hz[1];

}

//获取城市信息

// print_r($provinceArr);exit;

foreach ($provinceArr as $key => $val) {

//拼凑城市信息请求地址

$cityUrl = $url.$key.'.html';

$data = curlGet($cityUrl);

$data = iconv("GBK", "UTF-8//IGNORE",$data);

preg_match_all('/citytr\'>(.*?)/', $data, $matches);

foreach($matches[1] as $k => $v){

// echo $v;exit;

preg_match_all('/=\'(\d{2})\/(\d{4}).html\'>(.*?)/', $v, $info);

$city[$key][$k]['province_code'] = $info[1][1];

$city[$key][$k]['province_name'] = $val;

$city[$key][$k]['city_code'] = $info[2][1];

$city[$key][$k]['city_name'] = ($info[3][1] === '市辖区') ? $val : $info[3][1];

// print_r($city);exit;

}

// $cityData[$key] = $matches[1];

}

$cityArr = arr2ToArr1($city);

export_csv($cityArr);exit;

//curl get请求

function curlGet($url)

{

$curl = curl_init();

//设置抓取的url

curl_setopt($curl, CURLOPT_URL, $url);

//设置头文件的信息作为数据流输出

// curl_setopt($curl, CURLOPT_HEADER, 1);

//设置获取的信息以文件流的形式返回,而不是直接输出。

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

//执行命令

$data = curl_exec($curl);

//关闭URL请求

curl_close($curl);

//显示获得的数据

return $data;

}

//传入内容,返回数组

function returnArr($content)

{

foreach ($content as $key => $val) {

$arr[$key] = explode('

', ''));

}

$data2show = arr2ToArr1($arr);

return $data2show;

}

//二维数组转化成一维数组

function arr2ToArr1($arr)

{

return array_reduce($arr, 'array_merge', array());

}

//数据导出到csv

function export_csv($data) {

$path = $_SERVER['DOCUMENT_ROOT']."/csv/".date("Y-m-d",time())."/";

if (!is_dir($path)){ //判断目录是否存在 不存在就创建

mkdir($path,0777,true);

}

$filename = $path.time().'.csv'; //设置文件名

header( "Content-Type: text/csv;charset=utf-8" );

header( "Content-Disposition: attachment;filename=\"$filename\"" );

header("Pragma: no-cache");

header("Expires: 0");

$fp= fopen($filename, 'w');

// 对于用 wps 和编辑器打开无乱码但是用 excel 打开出现乱码的问题,可以添加以下一行代码解决问题

fwrite($fp, chr(0xEF).chr(0xBB).chr(0xBF));

foreach ($data as $fields) {

fputcsv($fp, $fields);

}

fclose($fp);

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,使用 Scrapy 框架可以更加方便地进行翻页和数据抓取。下面是一个示例代码,可以爬取研招网的考研信息并存储到 csv 文件。 首先,需要在终端使用以下命令创建一个 Scrapy 项目: ``` scrapy startproject kaoyan_info ``` 然后,在项目的 kaoyan_info/spiders 目录下创建一个名为 kaoyan_spider.py 的文件,并将以下代码复制进去: ``` import scrapy from scrapy.selector import Selector from scrapy.http import FormRequest import csv class KaoyanSpider(scrapy.Spider): name = 'kaoyan' allowed_domains = ['yz.chsi.com.cn'] start_urls = ['https://yz.chsi.com.cn/zsml/queryAction.do'] def parse(self, response): # 设置查询条件 formdata = { 'ssdm': '', 'yjxkdm': '', 'yjxkdmValue': '', 'zymc': '', 'xxfs': '', 'pageno': '1' } yield FormRequest.from_response(response, formdata=formdata, callback=self.parse_result) def parse_result(self, response): # 解析查询结果 sel = Selector(response) rows = sel.xpath('//table[@class="zsml-table"]/tr') for row in rows[1:]: cols = row.xpath('.//td/text()').extract() yield { '学校': cols[0].strip(), '专业': cols[1].strip(), '科类': cols[2].strip(), '计划数': cols[3].strip(), '招生人数': cols[4].strip() } # 翻页 params = { 'ssdm': '', 'yjxkdm': '', 'yjxkdmValue': '', 'zymc': '', 'xxfs': '', 'pageno': str(int(response.request.meta['page']) + 1) } yield FormRequest.from_response(response, formdata=params, callback=self.parse_result, meta={'page': params['pageno']}) def closed(self, reason): # 保存数据csv 文件 with open('kaoyan.csv', 'w', newline='') as csvfile: fieldnames = ['学校', '专业', '科类', '计划数', '招生人数'] writer = csv.DictWriter(csvfile, fieldnames=fieldnames) writer.writeheader() for item in self.items: writer.writerow(item) ``` 这个爬虫会自动翻页,将每一页的查询结果解析出来,并保存到一个 csv 文件。你可以在项目的根目录下运行以下命令来运行爬虫: ``` scrapy crawl kaoyan ``` 最后,当爬虫运行结束时,会自动将抓取到的数据保存到 kaoyan.csv 文件

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值