[Python]网页信息抓取

需求描述:获取http://www.gtis.com.cn/news1/index.jhtml上的37页共366条新闻标题

开发环境:python 3.3

解决方案:

import urllib.request
from html.parser import HTMLParser

class myparser(HTMLParser):
  def __init__(self):
    HTMLParser.__init__(self)
  def handle_starttag(self,tag,attrs):
    if tag=='a':
      for name,value in attrs:
        if name=='title':
          print(value)

if __name__=='__main__':
  my=myparser()

  for i in range(1,38):
    if i==1:
      url='http://www.gtis.com.cn/news1/index.jhtml'
    else:
      url='http://www.gtis.com.cn/news1/index_%s.jhtml'%i
    req = urllib.request.Request(url)
    with urllib.request.urlopen(req) as response:
      html = response.read().decode('utf-8')
    print('Page %s'%i)
    my.feed(html)

结果:

Page 1
江苏国土资源科技项目通过验收评审
江苏省第二次土地调查农村土地调查省级数据库及管理系统项目通过验收
“国图土地利用现状变更软件”首家通过中国土地勘测规划院专项软件测评
2012年度太原市农村土地变更调查软件应用培训
公司中标西安市国土资源局土地利用总体规划数据库建设与规划系统建设项目
公司荣获两项2012年度江苏省优秀测绘工程三等奖
公司中标大庆市农村地籍管理信息系统项目
常州市土地登记(档案)数据集成及管理系统项目通过验收
安达市、肇东市土地利用总体规划修改方案通过验收
公司中标牡丹江市土地变更调查与遥感监测核查项目
Page 2
安达市、肇东市土地利用总体规划定期评估通过验收
公司中标辽宁省农村集体土地确权登记发证2012年度省级项目-数据库管理系统建设
新沂国土资源局村庄地籍建库系统培训
......

Page 37
公司中标涟水县城镇土地调查项目 
庆祝我公司多个项目获得2007年度江苏省国土资源科技创新奖 
推进社会主义新农村建设项目成果通过省厅验收 
庆祝我公司成为ArcGIS全球战略合作伙伴 
国土资源电子政务平台3.0隆重推推出 
庆祝我公司ArcGIS国土培训中心正式成立


参考资料:

python模块之HTMLParser: 解析html,获取url
Python3 HTML Parser 以统一发票对奖为例
python 解析html——以人人网详细资料页为例
Python3 HTML 解析器
用python爬虫抓站的一些技巧总结
Python3伪装浏览器爬虫读取网页内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值