微博文本爬虫

最新推荐文章于 2024-09-30 13:41:03 发布

置顶

economy_shang

最新推荐文章于 2024-09-30 13:41:03 发布

阅读量1.1k

点赞数 3

分类专栏： Python爬虫文章标签： python

本文链接：https://blog.csdn.net/economy_shang/article/details/107807822

版权

本文介绍了如何使用Python的selenium、time、bs4和json库进行微博文本爬虫。首先，确保安装了相关库并配置了谷歌浏览器的webdriver路径。接着，需要关闭已打开的谷歌浏览器，并建议在网页端微博设置自动登录。文章提供了完整代码，详细阐述了运行过程及输出结果。

摘要由CSDN通过智能技术生成

微博文本爬虫使用须知

1.已安装selenium,time,bs4,json库
2.已配置谷歌浏览器webdriver路径
3.谷歌浏览器Default文件位于C:\Users\DELL\AppData\Local\Google\Chrome\User Data
4.使用爬虫前确保谷歌浏览器已关闭
5.推荐网页端微博设置为自动登录

全代码

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup
import bs4
import json


def get_user_info():
        #获取用户账号、密码及被爬取微博主页url
        try:
                f=open('user_info.txt','r')
        except FileNotFoundError:
                print('首次使用，请输入相关信息')
                f=open('user_info.txt','w')
                user_id=input('请输入微博账户：')
                password=input('请输入微博密码：')
                url=input('请输入被爬取微博主页的url：')
                f.write(json.dumps({
   'user_id':user_id,'password':password,'url':url}))
                f.close()
        else:
                print('正在加载相关信息')
                user_info=json.loads(f.read())
                user_id=user_info['user_id']
                password