Python爬取新闻网站保存标题、内容、日期(1)，万字长文

sffhhr

于 2024-03-23 21:05:09 发布

阅读量553

点赞数 10

分类专栏： 2024年程序员学习文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sffhhr/article/details/136975329

版权

2024年程序员学习专栏收录该内容

289 篇文章 0 订阅

订阅专栏

csv_writer.writeheader()

保存图片

def save_img(img_urls):

for i in img_urls:

img_url = ‘http://news.cqu.edu.cn’ + i

img_content = get_html(img_url).content

img_name = img_url.split(‘/’)[-1]

with open(‘新闻图片\’ + img_name, mode=‘wb’) as f:

f.write(img_content)

主函数

def main(url):

html_data = get_html(url).text

selector = get_pars(html_data)

lis = selector.css(‘body > div:nth-child(4) > div > div.lists .title a::attr(href)’).getall()

for li in lis:

content_data = get_html(li).text

li_selector = get_pars(content_data)

title = li_selector.css(‘.dtitle::text’).get() # 新闻标题

article = li_selector.css(‘.acontent’).get() # 新闻内容

name_list = li_selector.css(‘.dinfoa a::text’).getall() # 作者

name = ‘|’.join(name_list)

date_list = li_selector.css(‘.ibox span::text’).getall()

date_str = ‘’.join(date_list) # 新闻日期

img_urls = li_selector.css(‘.acontent p img::attr(src)’).getall() # 获取新闻内图片

dit = {

‘标题’: title,

‘作者’: name,

‘日期’: date_str,

‘新闻详情页’: li,

}

csv_writer.writerow(dit)

save_article(article, title)

save_img(img_urls)

if name == ‘main’:

for page in range(1, 11):

url = ‘https://news.cqu.edu.cn/newsv2/news-127.html?&page={}’.format(page)

main_thread = threading.Thread(target=main, args=(url,))

main_thread.start()

在这里插入图片描述

文件PDF

在这里插入图片描述

在这里插入图片描述

详情页url

在这里插入图片描述

相关图片

图片可以按照标题后缀数字123命名，这个地方可以优化

在这里插入图片描述

csv文件数据

在这里插入图片描述

完整代码

import requests

import parsel

import pdfkit

import csv

import threading

f = open(‘新闻.csv’, mode=‘a’, encoding=‘utf-8-sig’, newline=‘’)

csv_writer = csv.DictWriter(f, fieldnames=[‘标题’, ‘作者’, ‘日期’, ‘新闻详情页’])

csv_writer.writeheader()

headers = {

‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36’

}

html_str = “”"

<!doctype html>

Document

{article}

“”"

def get_html(html_url):

response = requests.get(url=html_url, headers=headers)

return response

def get_pars(html_data):

selector = parsel.Selector(html_data)

return selector

def save_article(article, title):

html_path = ‘重庆新闻\’ + title + ‘.html’

pdf_path = ‘重庆新闻pdf\’ + title + ‘.pdf’

html = html_str.format(article=article)

with open(html_path, mode=‘w’, encoding=‘utf-8’) as f:

f.write(html)

print(‘{}已下载完成’.format(title))

exe 文件存放的路径

config = pdfkit.configuration(wkhtmltopdf=‘C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe’)

把 html 通过 pdfkit 变成 pdf 文件

pdfkit.from_file(html_path, pdf_path, configuration=config)

def save_img(img_urls):

for i in img_urls:

img_url = ‘http://news.cqu.edu.cn’ + i

img_content = get_html(img_url).content

img_name = img_url.split(‘/’)[-1]

with open(‘新闻图片\’ + img_name, mode=‘wb’) as f:

f.write(img_content)

def main(url):

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）

师，想要提升技能，往往是自己摸索成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）
[外链图片转存中…(img-6dJ0QIqI-1711199098853)]

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python爬取新闻网站保存标题、内容、日期(1)，万字长文

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄172天

468: 原创

1万+: 周排名

3448: 总排名

28万+: 访问

: 等级

1万+: 积分

4430: 粉丝

6232: 获赞

23: 评论

6376: 收藏

私信

关注

热门文章

分类专栏

最新评论

工作中常用到的Linux系统firewall防火墙策略_linux 防火墙策略(1)
痘痘不懂安全:
2024年最新虚拟机安装RockyLinux 9
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年最新虚拟机安装RockyLinux 9
2401_83974639: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
etcd入门详解
ghfgjfg679: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年最新虚拟机安装RockyLinux 9
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。