需求描述:获取http://www.gtis.com.cn/news1/index.jhtml上的37页共366条新闻标题
开发环境:python 3.3
解决方案:
import urllib.request
from html.parser import HTMLParser
class myparser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
def handle_starttag(self,tag,attrs):
if tag=='a':
for name,value in attrs:
if name=='title':
print(value)
if __name__=='__main__':
my=myparser()
for i in range(1,38):
if i==1:
url='http://www.gtis.com.cn/news1/index.jhtml'
else:
url='http://www.gtis.com.cn/news1/index_%s.jhtml'%i
req = urllib.request.Request(url)
with urllib.request.urlopen(req) as response:
html = response.read().decode('utf-8')
print('Page %s'%i)
my.feed(html)
结果:
Page 1
江苏国土资源科技项目通过验收评审
江苏省第二次土地调查农村土地调查省级数据库及管理系统项目通过验收
“国图土地利用现状变更软件”首家通过中国土地勘测规划院专项软件测评
2012年度太原市农村土地变更调查软件应用培训
公司中标西安市国土资源局土地利用总体规划数据库建设与规划系统建设项目
公司荣获两项2012年度江苏省优秀测绘工程三等奖
公司中标大庆市农村地籍管理信息系统项目
常州市土地登记(档案)数据集成及管理系统项目通过验收
安达市、肇东市土地利用总体规划修改方案通过验收
公司中标牡丹江市土地变更调查与遥感监测核查项目
Page 2
安达市、肇东市土地利用总体规划定期评估通过验收
公司中标辽宁省农村集体土地确权登记发证2012年度省级项目-数据库管理系统建设
新沂国土资源局村庄地籍建库系统培训
......
Page 37
公司中标涟水县城镇土地调查项目
庆祝我公司多个项目获得2007年度江苏省国土资源科技创新奖
推进社会主义新农村建设项目成果通过省厅验收
庆祝我公司成为ArcGIS全球战略合作伙伴
国土资源电子政务平台3.0隆重推推出
庆祝我公司ArcGIS国土培训中心正式成立
参考资料:
python模块之HTMLParser: 解析html,获取url
Python3 HTML Parser 以统一发票对奖为例
python 解析html——以人人网详细资料页为例
Python3 HTML 解析器
用python爬虫抓站的一些技巧总结
Python3伪装浏览器爬虫读取网页内容