MFC 抓取网页内容

注意!!!
在写代码之前要把修改一下字符集,改为多字节字符集,如果不改就会发生乱码。
就像这样
在这里插入图片描述

修改方法:
在这里插入图片描述
在这里插入图片描述
主界面:
在这里插入图片描述
写代码之前要引入这个头文件
在这里插入图片描述

//确定按钮
void CdemoDlg::OnBnClickedButton1()
{
	// TODO: 在此添加控件通知处理程序代码

	
	//定义一个字符串 用于保存网站地址
	CString str;

	//从控件上获取网站地址并保存到str
	GetDlgItemText(IDC_EDIT1,str);

	//创建一个会话
	CInternetSession session;

	//用于保存爬取后的网站内容
	CHttpFile * file = NULL;

	//异常处理
	try
	{
		//打开网站并转换格式	 
		file = (CHttpFile *)session.OpenURL(str);
	}
	catch(CInternetException * pException)
	{
		//发生错误的情况
		pException->ReportError();
		pException->Delete();
		return;
	}


	CString tmp;

	CString content;

	//readstring是一行一行的读取
	while(file->ReadString(tmp))
	{
		//吧每一行读取到的内容存放到content中
		//content += tmp; 
		//转换字符集 我爬取的网站格式是utf-8格式 在读取到的每一样后面加回车
		content += Convert(tmp,CP_UTF8,CP_ACP) + _T("\r\n");
	}

	//释放内容
	file->Close();
	delete file;
	session.Close();

	//写到控件中
	SetDlgItemText(IDC_EDIT2,content);
}

转换字符集函数
Convert声明

//函数声明
CString Convert(CString str,int sourceCodepage, int targetCodepage);
CString Convert(CString str,int sourceCodepage, int targetCodepage)
{
 
	int len = str.GetLength();
	int unicodeLen = MultiByteToWideChar(sourceCodepage,0,str,-1,NULL,0);
 
	wchar_t *pUnicode;
	pUnicode = new wchar_t[unicodeLen+1];
 
	memset(pUnicode,0,(unicodeLen+1)*sizeof(wchar_t));
	MultiByteToWideChar(sourceCodepage,0,str,-1,(LPWSTR)pUnicode,unicodeLen);
 
	BYTE *pTargetData = NULL ;
	int targetLen = WideCharToMultiByte(targetCodepage,0,(LPWSTR)pUnicode,-1,(char*)pTargetData,0,NULL,NULL);
 
	pTargetData = new BYTE[targetLen+1];
	memset(pTargetData,0,targetLen+1);
 
	WideCharToMultiByte(targetCodepage,0,(LPWSTR)pUnicode,-1,(char*)pTargetData,targetLen,NULL,NULL);
	
	CString rt;
	rt.Format("%s",pTargetData);
 
	delete []pUnicode;
	delete []pTargetData;
 
 
	return rt ;
}

爬取成功
在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值