网页文档内容的分析
一般可以分为内容提取,title标签,keywords等对页面内容的分析。
其实可以在我们的spider的url连接来源的innertext进行分析,我觉得这个准确度还是比较大的
有的html文档根本就不能分析出什么内容,比如一个flash页面,spider是很难分析内容的,如果跟url来源innertext建立关系,那么就可以
这个flash的具体内容了
一般可以分为内容提取,title标签,keywords等对页面内容的分析。
其实可以在我们的spider的url连接来源的innertext进行分析,我觉得这个准确度还是比较大的
有的html文档根本就不能分析出什么内容,比如一个flash页面,spider是很难分析内容的,如果跟url来源innertext建立关系,那么就可以
这个flash的具体内容了