微博爬虫展开全文_爬取新浪微博新闻，包括模拟登陆，数据存储等！最适合新手的教程！...

最新推荐文章于 2024-04-01 14:49:10 发布

VIP文章哈特瑞姆

最新推荐文章于 2024-04-01 14:49:10 发布

阅读量1.1k

点赞数

文章标签：微博爬虫展开全文

本文链接：https://blog.csdn.net/weixin_29266749/article/details/113370935

版权

写在最开头

该程序主要是为爬取新浪微博，想要搜索的信息，主要报错的信息为文本，其他元素未涉及，此外微博博主信息，笔者也不关注，时间等信息同样不关注，主要目的就是获取文本信息。因此，本着对读者同样同样也是对自己负责的态度，文中添加了一些程序的注释及一些爬虫的思想。如果不感兴趣，直接想看程序，可以直接clone该代码，已上传到github；当然，如果有问题可以在评论中留言，可以和笔者一起探讨(其实，一些重点及难点，笔者多数都已文中提及到)。

下载浏览器驱动

这一步视你电脑装了哪个浏览器(具体使用使用什么版本根据浏览器自行选择)FireFox使用FireFoxdriver谷歌浏览器使用chromedriver

测试驱动是否匹配/font>

使用如下代码测试浏览器是否可能跳出，而且可以正常跳转到目标页面，则证明可以成功使用插件(注意笔者是将该插件放到当前目录下，如果放在其它地方，需要使用绝对路径)

from selenium import webdriver
driver = webdriver.Firefox(executable_path="geckodriver.exe")
       #webdriver.Chrome(executable_path='chromedriver.exe')
driver.get('https://s.weibo.com')

模拟登陆

首先需要分析待爬取页面信息(右键检查或者直接F12)

这里多说几句，爬虫都是爬取静态页面，可以看一下，我们目标页面爬取并不是那么容易，需要经过几个步骤。

登录到页面之中(如果不登录࿰

最低0.47元/天解锁文章

哈特瑞姆

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
微博爬虫展开全文_爬取新浪微博新闻，包括模拟登陆，数据存储等！最适合新手的教程！...

写在最开头该程序主要是为爬取新浪微博，想要搜索的信息，主要报错的信息为文本，其他元素未涉及，此外微博博主信息，笔者也不关注，时间等信息同样不关注，主要目的就是获取文本信息。因此，本着对读者同样同样也是对自己负责的态度，文中添加了一些程序的注释及一些爬虫的思想。如果不感兴趣，直接想看程序，可以直接clone该代码，已上传到github；当然，如果有问题可以在评论中留言，可以和笔者一起探讨(...
复制链接

扫一扫