c++ 获取一个网页下所有子链接

g++ get.cpp -std=c++11 -stdlib=libc++

获取网址下子链接的地址:

--------

#include <iostream>
#include <fstream>
#include <string>
#include <regex>
#include <cstdlib>

using namespace std;

int main(){

	string begin("<a href=\"");
	string end("\">");
	
	regex reg("><a href=\"([^(/|\?)].*?)(?=\">)");
	string baseurl("http://www.opensource.apple.com/source/CF/CF-476.14/");

	ifstream in("./a.html");

	string line;
	smatch file_match;
	while (getline(in,line)) {
		while (regex_search(line,file_match,reg)) {
			for (size_t i = 1;i < file_match.size(); i ++) {
				string name = file_match[i];
				string url(baseurl + name + "?txt");
				//cout<<name<<endl;	
				string cmd("curl ");
				cmd.append(url);
				cmd.append(" -o ");
				cmd.append(name);
				system(cmd.c_str());
			}
			line = file_match.suffix().str();
		}
	}



	return 0;
}


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值