从0开始,用python提取html链接

基本方案,采用 lxml + beautifulsoup 进行html解析和url 提取

参考 Python HTML 解析器性能评测  lxml 解析速度快,beautifulsoup 的容错性更好一些.

下了一个 lxml-2.3-py2.7-win32.egg  安装需要先安装一个 setuptools  然后执行 setuptools.exe  xxx.egg 安装了xml

lxml封装了beautifulsoup , 但需要自己安装这个东东.下完解开,自带setup  . 执行   python.exe setup.py install

下面就可以开始解析文件了

#-*- coding: utf-8 -*-
import lxml.html.soupparser as soupparser
import lxml.etree as etree
print "hello html parser !"
html = r'i:\temp\test.html'
dom = soupparser.parse(html)
#dom = soupparser.fromstring(html)
count = 0
for ele in dom.iter():
    if(ele.tag == 'a'):
        count += 1
        print ele.attrib.get('href')
print "parse finished ! find url = ", count






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值