大家好,小编为大家解答python爬取新闻网站内容的问题。很多人还不知道python爬取新闻内容报告,现在让我们一起来看看吧!
在本篇博客中,我们将使用urllib+正则表达式爬取指定页面的新闻内容,使用正则表达式解析网页,获取新闻的题目、日期、来源、正文内容。
首先,搭建起主体程序,爬虫四部曲:
import urllib.request
import re
from requests import RequestException
def get_page(url):
pass
def get_parser(html):
pass
def write_tofile(title, date,source,article):
pass
if __name__=='__main__':
#指定页面新浪新闻的URL
url = 'https://news.sina.com.cn/o/2019-07-15/doc-ihytcitm2223461.shtml'
#发送请求、获取响应
html = get_page(url)
#解析响应、保存结果
get_parser(html)
发送请求,获取响应,编写get_page()函数