信息采集关键算法

 //查找单个链结地址
BOOL FindHref(LPCTSTR lpszFind,LPCTSTR lpszString,CString& lpszResult,UINT nLen)

//从整个网页文本中查找所有链结地址
BOOL GetHref(LPCSTR szBuffer,LPCSTR szfind, CStringList& list)

//获取整个网页中的Email地址
BOOL GetEmail(LPCSTR szBuffer,LPCSTR szfind, CStringList& list)

//获取网页中的正文
BOOL GetHTMLText(LPCSTR szBuffer, CStringList& list)

//将网页中的正文拼成字符串返回
CString GetHTMLText(CString sStr)

//判断一行文本是否为空行
bool isBlankLine(char *line)

//过滤掉正文中的空行
CString FilterBlankLine(CString sStr)

//由于网页中链结往往有重复的,因此要用函数去除重复链结,当然也可以在找链结的时候就抛弃重复的
void FilterList(CStringList &list)

//根据前后关键字获取信息文本,例如从文本中获取“标题”,“联系人”关键字之间的文本
CString FilterByMark(CString sStr,CString mark1,CString mark2)

//按关键字过滤掉多余空格,例如按关键字“邮件”可把文本中“邮 件”中的多余空格全部剔除,便于

进行下一步采集信息
CString FilterSpaceByMark(CString sStr,CString mark)

 

文章来自: Gavin's blog

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值