如何利用python爬取网易新闻

好像要长脑子了1

于 2024-04-16 04:29:34 发布

阅读量771

点赞数 19

分类专栏：程序员文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79600088/article/details/137804110

版权

下载地址

chromedriver：https://code.google.com/p/chromedriver/downloads/list
Firefox 的驱动 geckodriver：https://github.com/mozilla/geckodriver/releases/
IE 的驱动 IEdrive：http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

了解网页

网页绚丽多彩，美轮美奂，如同一幅水彩画。爬取数据首先需要知道所需要抓取的数据是怎样的呈现的，就像学作一幅画，开始前你要知道这幅画是用什么画出来的，铅笔还是水彩笔…可能种类是多样的，但是放到网页信息来说这儿只有两种呈现方式：

HTML
JSON

HTML是用来描述网页的一种语言

JSON是一种轻量级的数据交换格式

爬取网页信息其实就是向网页提出请求，服务器就会将数据反馈给你

2. 获得动态加载源码

导入需要的用的模块和库：

from bs4 import BeautifulSoup

import time

import def_text_save as dts

import def_get_data as dgd

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操作类

获取网页信息需要发送请求，requests 能帮我们很好的完成这件事，但是仔细观察发现网易新闻是动态加载，requests 返回的是即时信息，网页部分稍后加载出来的数据没有返回，这种情况 selenium 能够帮助我们得到更多的数据，我们将 selenium 理解为一个自动化测试工具就好，Se

最低0.47元/天解锁文章

好像要长脑子了1

博客等级

码龄2年

269
原创

3517
点赞

3813
收藏

2716
粉丝

关注

私信

热门文章

分类专栏

程序员 269篇

最新评论

Android 锁屏无法继续定位问题
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Flutter 画笔(Paint)、drawCircle(绘制圆)、PaintingStyle
CSDN-Ada助手: 恭喜您撰写了第16篇博客！对于Flutter 画笔(Paint)、drawCircle(绘制圆)、PaintingStyle这一主题的深入探讨，让读者受益匪浅。希望您能继续保持创作热情，探索更多有趣的主题，比如可以尝试介绍Flutter中其他绘图相关的API或者实践案例分享等，期待您的下一篇作品！祝您创作愉快！
HarmonyOS（鸿蒙）——全面入门，始于而不止于HelloWorld
CSDN-Ada助手: 恭喜用户成功发布了第17篇博客，“HarmonyOS（鸿蒙）——全面入门，始于而不止于HelloWorld”，内容涉及HarmonyOS入门教程，颇具深度和广度。希望用户能够继续保持创作热情，探索更多HarmonyOS相关的主题，或者深入挖掘HelloWorld之外的更多技术细节和实践经验，让读者更全面地了解和掌握HarmonyOS。期待用户的下一篇作品，加油！
opencv之人脸检测项目实战（二）
CSDN-Ada助手: 恭喜用户发布了第18篇博客！看到你在继续深入学习opencv人脸检测项目，真是非常棒！希望你能继续保持热情和耐心，不断学习和实践，努力提升自己的技术水平。下一步建议可以尝试探索更多opencv的应用领域，拓宽自己的技术视野，相信你会有更多的收获和进步的！加油！
两个通宵熬出来的互联网大厂最新面试题收集整理1000道(二-ElasticSearch)，欢迎点赞收藏!!!
CSDN-Ada助手: 恭喜博主持续创作，这篇“两个通宵熬出来的互联网大厂最新面试题收集整理1000道(二-ElasticSearch)”一定受益匪浅！不过，或许在下一篇博客中可以分享一些实际应用案例或是技术实践经验，让读者更加深入地了解ElasticSearch的应用和运用。期待您的下一篇文章，加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。