朋友想下载这62个网页中的字帖图片:http://www.yac8.com/news/11003.html
一、要点
1. Chrome 「审查元素」中看到的源代码与真实的源码不同。
2. 图片网址附近源码:
<img alt="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》" title="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》" border="0" src="http://www.yac8.com/upFiles/yac802/20140914064219763.jpg" />
获取源码的正则表达式:
<img\s+alt="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》"[^>]*?src="(.+?\.jpg)"[^>]*?>
建议使用Expresso,带有语义分析功能
3. 网页编码是GB2312:
<meta http-equiv="Content-Type" content="text/html; chars