微博文本爬虫使用须知
1.已安装selenium,time,bs4,json库
2.已配置谷歌浏览器webdriver路径
3.谷歌浏览器Default文件位于C:\Users\DELL\AppData\Local\Google\Chrome\User Data
4.使用爬虫前确保谷歌浏览器已关闭
5.推荐网页端微博设置为自动登录
全代码
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup
import bs4
import json
def get_user_info():
#获取用户账号、密码及被爬取微博主页url
try:
f=open('user_info.txt','r')
except FileNotFoundError:
print('首次使用,请输入相关信息')
f=open('user_info.txt','w')
user_id=input('请输入微博账户:')
password=input('请输入微博密码:')
url=input('请输入被爬取微博主页的url:')
f.write(json.dumps({
'user_id':user_id,'password':password,'url':url}))
f.close()
else:
print('正在加载相关信息')
user_info=json.loads(f.read())
user_id=user_info['user_id']
password