1. html parser: 继承SGMLParser类, 对html页面中的正文(tag <p>)和锚点 (tag <a>) 的内容进行提取
2. Spider: 用urllib打开html page,通过MyParser提取页面信息(正文和锚点). 通过关键字提取有用信息:只有包含了关键字的信息才会被保留下来,其他信息都会被舍弃掉。这个功能非常适合在网页上搜取想要的信息。 如果关键字为空,则默认把所有信息都保留下来。
不足(待改进):
1)不支持递归搜索
2) 只提取网页中的正文信息和锚点信息
3) 关键字搜索功能有待加强