python之xpath爬虫

<span style="font-size:18px;">#coding=utf-8
from lxml import etree
import sys
import chardet
import  codecs

reload(sys)
sys.setdefaultencoding("utf-8")
html=u'''
<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8" />
    <title>测试常用规范</title>
</head>
<body>
  <div  id="content">
       <ul id="useful">
           <li>546545645645645</li>
           <li>这是第一条信息</li>
           <li>这是第一条信息</li>       
      </ul>
      <ul id="useless">
           <li>不需要信息</li>
           <li>不需要信息</li>
           <li>不需要信息</li>       
      </ul>
        
      <div>
            <a href="http://lotluck.com">lotluck专栏</a>
     
            <a href="http://lotluck/68525233653.com"  title=杜帅加油啊"">linux自学之旅</a>
      </div>

 </div>

</body>
</html>
'''

print html
selector = etree.HTML(html)

content = selector.xpath('//ul[@id="useful"]/li/text()')

 

print type(content)

for each in content:
    print each

 

##提取属性

link = selector.xpath('//a/@href')
for each in link:
    print each


print '开始'
title = selector.xpath('//a/@title')
f = open('5.txt','w')
f.write(title[0])
f.close()

f1 = open('5.txt','r')
fencoding = chardet.detect(f1.read())
print fencoding

print '结束'
print type(title[0])
 
#print title[0].decode('ascii').encode('utf-8')
print "我们是小青哇"


f3=codecs.open("6.htm","r","utf-8")
content1 = f3.read()
f3.close()
tree=etree.HTML(content1)
node= tree.xpath('//ul[@id="useful"]/li/text()')
for each in node:
    print each
   

</span>


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值