【爬虫】02-爬新浪新闻

最新推荐文章于 2024-05-20 21:35:11 发布

老板来颗糖

最新推荐文章于 2024-05-20 21:35:11 发布

阅读量348

点赞数

分类专栏：爬虫文章标签：爬虫新浪新闻

本文链接：https://blog.csdn.net/lu13093323120/article/details/84670234

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.准备工作

url：“https://www.sina.com.cn/”
分析目标： 1.新闻详情页
2.新闻标题
3.新闻内容

开始爬取

目录结构
在这里插入图片描述

代码

import requests, re


def get_sina_news(url):
    # url
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }

    # 响应内容
    req = requests.get(url=url, headers=headers)
    html = req.content.decode()
    # print(html)  # 测试html

    # 提取数据
    reg = r'href="https:\/\/news\.sina\..*?"'
    news_url_list = re.findall(reg, html)[1::]
    news_url_list.pop(0)

    # print(news_url_list)  # 测试url_list
    # print(news_url_list[0][6:-1])
    # news_html = requests.get(url=news_url_list[0][6:-1])
    # print(news_html)
    count = 1
    for news_url in news_url_list:
        # 新闻详情url
        # print(news_url[6:-1])
        news_html = requests.get(url=news_url[6:-1]).content.decode()
        # print(news_html)  # 测试新闻详情页
        title_reg = r'<h1 class="main-title">(.*)</h1>'
        try:
            news_title = re.findall(title_reg, news_html)[0] + ".txt"
        except Exception as e:
            print(e)
            continue
        # print(news_title)
        # 新闻内容
        content_reg = r'<p>(.*)</p>'
        content_list = re.findall(content_reg, news_html)
        # print(content_list)
        content = ""
        for string in content_list:
            content += string

        # print(content)  # 测试
        # 内容排版
        content = content.replace("\u3000\u3000", '\n  ')
        content = re.sub(r'<strong>', '', content)
        content = re.sub(r'<\/strong>', '', content)
        # content = content.split('\n ')
        # print(content)

        # 存储数据
        with open("news/sina_news_1130/"+news_title, 'w') as f:
            f.writelines(content)
            print("已完成第%d篇新闻爬取" % count)
            count += 1

if __name__ == '__main__':
    ret = get_sina_news("https://www.sina.com.cn/")

爬取结果

在这里插入图片描述

老板来颗糖

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【爬虫】02-爬新浪新闻

1.准备工作url：“https://www.sina.com.cn/”分析目标： 1.新闻详情页2.新闻标题3.新闻内容开始爬取目录结构代码import requests, redef get_sina_news(url): # url headers = { "User-Agent": "Mozilla/5.0 (Windows ...
复制链接

扫一扫

专栏目录