Python爬取新闻网站保存标题、内容、日期、图片等数据(1)

最新推荐文章于 2024-06-08 11:00:00 发布

2401_83817603

最新推荐文章于 2024-06-08 11:00:00 发布

阅读量995

点赞数 28

分类专栏：程序员文章标签： python tensorflow 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83817603/article/details/137489184

版权

本文介绍了一个Python爬虫程序，用于抓取重庆大学新闻网的新闻，包括新闻标题、作者、日期和内容，并将HTML保存为PDF，图片下载到本地，所有数据写入CSV文件。程序使用requests、pandas、pdfkit和BeautifulSoup库，实现多线程爬取，提高了效率。

摘要由CSDN通过智能技术生成

{article}

“”"

def save_article(article, title):

html_path = ‘重庆新闻\’ + title + ‘.html’

pdf_path = ‘重庆新闻pdf\’ + title + ‘.pdf’

html = html_str.format(article=article)

with open(html_path, mode=‘w’, encoding=‘utf-8’) as f:

f.write(html)

print(‘{}已下载完成’.format(title))

exe 文件存放的路径

config = pdfkit.configuration(wkhtmltopdf=‘C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe’)

把 html 通过 pdfkit 变成 pdf 文件

pdfkit.from_file(html_path, pdf_path, configuration=config)

保存csv文件

f = open(‘新闻.csv’, mode=‘a’, encoding=‘utf-8-sig’, newline=‘’)

csv_writer = csv.DictWriter(f, fieldnames=[‘标题’, ‘作者’, ‘日期’, ‘新闻详情页’])

csv_writer.writeheader()

保存图片

def save_img(img_urls):

for i in img_urls:

img_url = ‘http://news.cqu.edu.cn’ + i

img_content = get_html(img_url).content

img_name = img_url.split(‘/’)[-1]

with open(‘新闻图片\’ + img_name, mode=‘wb’) as f:

f.write(img_content)

主函数

def main(url):

html_data = get_html(url).text

selector = get_pars(html_data)

lis = selector.css(‘body > div:nth-child(4) > div > div.lists .title a::attr(href)’).getall()

for li in lis:

content_data = get_html(li).text

li_selector = get_pars(co

最低0.47元/天解锁文章

关注

28
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Python爬取新闻网站保存标题、内容、日期、图片等数据(1)

{article}“”"html_path = ‘重庆新闻\’ + title + ‘.html’pdf_path = ‘重庆新闻pdf\’ + title + ‘.pdf’print(‘{}已下载完成’.format(title))
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。