python抓取新闻【华盛顿邮报】

本文介绍了如何使用Python从华盛顿邮报的网页上抓取新闻列表和URL,总共获取了约80条新闻数据,并能够进一步获取每条新闻的详细内容。
摘要由CSDN通过智能技术生成

没有好用的美国新闻api,只好从网页上抓取

可以获得新闻列表和url(大约80条),并可以获取具体每一条新闻的文字内容:

'''
Author   : Peizhong Ju
Date     : Apr. 29, 2016
Function : Get the news from WashingtonPost [python2.7]
'''
import urllib2
import HTMLParser
import random

class GetList(HTMLParser.HTMLParser): #get the url list of all articles
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
        self.outputFlag = False
        self.count = 0
        self.link = ''
        self.linkList = []
    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            for key, value in attrs:
                if key == 'data-pb-field':
                    if value == 'web_headline':
                        self.outputFlag = True
                if key == 'href':
                    self.link = value
    d
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值