python爬取微博热搜写入数据库_python，selenium爬取微博热搜存入Mysql

最新推荐文章于 2024-06-21 15:41:14 发布

weixin_39588542

最新推荐文章于 2024-06-21 15:41:14 发布

阅读量170

点赞数

文章标签： python爬取微博热搜写入数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39588542/article/details/114445315

版权

本文介绍如何使用Python结合selenium爬取微博热搜数据，并存储到MySQL数据库中。通过定位网页元素，获取热搜标题和链接，利用pandas处理数据并存入数据库。

摘要由CSDN通过智能技术生成

最终的效果废话不多少直接上图这里可以清楚的看到数据库里包含了日期内容和网站link 下面我们来分析怎么实现使用的库 import requestsfrom selenium.webdriver import Chrome,

python爬取微博热搜存入Mysql

最终的效果

使用的库

目标分析

一：得到数据

二：链接数据库

总代码

最终的效果

废话不多少，直接上图

这里可以清楚的看到，数据库里包含了日期，内容，和网站link

下面我们来分析怎么实现

使用的库

import requests

from selenium.webdriver import Chrome, ChromeOptions

import time

from sqlalchemy import create_engine

import pandas as pd

目标分析

这是微博热搜的link：点我可以到目标网页

首先我们使用selenium对目标网页进行请求

然后我们使用xpath对网页元素进行定位，遍历获得所有数据

然后使用pandas生成一个Dataframe对像，直接存入数据库

一：得到数据

我们看到，使用xpath可以得到51条数据，这就是各热搜，从中我们可以拿到链接和标题内容

all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a') #得到所有数据

context = [i.text for i in c] # 得到标题内容

links = [i.get_attribute('href') for i in c] # 得到link

然后我们再使用zip函数，将date，context，links合并

zip函数是将几个列表合成一个列表，并且按index对分列表的数据合并成一个元组，这个可以生产pandas对象。

dc = zip(dates, context, links)

pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

其中date可以使用time模块获得

二：链接数据库

这个很容易

enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")

pdf.to_sql(name='infromation', con=enging, if_exists="append")

总代码

from selenium.webdriver import Chrome, ChromeOptions

import time

from sqlalchemy import create_engine

import pandas as pd

def get_data():

url = r"https://s.weibo.com/top/summary" # 微博的地址

option = ChromeOptions()

option.add_argument('--headless')

option.add_argument("--no-sandbox")

browser = Chrome(options=option)

browser.get(url)

all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')

context = [i.text for i in all]

links = [i.get_attribute('href') for i in all]

date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())

dates = []

for i in range(len(context)):

dates.append(date)

# print(len(dates),len(context),dates,context)

dc = zip(dates, context, links)

pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

# pdf.to_sql(name=in, con=enging, if_exists="append")

return pdf

def w_mysql(pdf):

try:

enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")

pdf.to_sql(name='infromation', con=enging, if_exists="append")

except:

print('出错了')

if __name__ == '__main__':

xx = get_data()

w_mysql(xx)

希望能够帮到大家一点，大家一起共同进步，共同成长！

祝大家新年快乐！！！

以上信息来源于网络，如有侵权，请联系站长删除。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。