从0开始,用python提取html链接

最新推荐文章于 2022-03-15 22:54:50 发布

地平线

最新推荐文章于 2022-03-15 22:54:50 发布

阅读量822

点赞数

分类专栏： python 文章标签： html python url

本文链接：https://blog.csdn.net/horizon_tj/article/details/6988738

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基本方案,采用 lxml + beautifulsoup 进行html解析和url 提取

参考 Python HTML 解析器性能评测 lxml 解析速度快,beautifulsoup 的容错性更好一些.

下了一个 lxml-2.3-py2.7-win32.egg 安装需要先安装一个 setuptools 然后执行 setuptools.exe xxx.egg 安装了xml

lxml封装了beautifulsoup , 但需要自己安装这个东东.下完解开,自带setup . 执行 python.exe setup.py install

下面就可以开始解析文件了

#-*- coding: utf-8 -*-
import lxml.html.soupparser as soupparser
import lxml.etree as etree
print "hello html parser !"
html = r'i:\temp\test.html'
dom = soupparser.parse(html)
#dom = soupparser.fromstring(html)
count = 0
for ele in dom.iter():
    if(ele.tag == 'a'):
        count += 1
        print ele.attrib.get('href')
print "parse finished ! find url = ", count