还是在继续蛛蛛的问题
今天遇到两个问题
1:正则表达式验证a中的href 链接问题
2:从绝对路径转到相当路径的问题
办法:
1:要想从a中得到完整的链接还真有点难度 要考虑的问题是:有很多页面不是绝对路径的而是相对路径的 这个没有什么共同的地方 不好用正则表达式去匹配它 我是怎样搞的呢 思路:将全部带有链接的标记找到 例如: <a href="http://www.madeinchina.cn">中国制作</a> 还有像这样的 <a href="/product/list.aspx">产品列表</a> 正则表达式是:string regs="(<a .+?a>)|(<a.+?a>)";用这个完整匹配就行了.
代码如下:
这是第一步
第二步得到href中的值:
代码一样 但是正则表达式不同 正则表达式是:string strRegex = "(href.+?/".+?/")|(href.+?/'.+?/')";
这样得到的效果就是 href="http://www.madeinchina.cn" 或者是: href="/product.aspx";
不还是没有得到想要的效果吗? 用asp.net的replace方法代替不要的值
方法如果:
这样就成了href中的信息了!
第二个问题办法是:
将相对路径转换成绝对路径的办法是:
这个原来是想要逻辑自己写的 发现真的很麻烦 结果呢找了找 有好的办法 代码如下
好了 不早了 睡了 明天晚上继续我的蛛蛛!