今天进行微博话题的爬虫练习,并提取关键字进行可视化展示。
了解网页详情
爬微博,如果不进行手动输入,一般只展示几条信息。所以,我们将利用手机客户端的网址连接进行爬取。
进入搜索页面
往下拉页面查看内容
需要登陆。
不过我们可以点击右键,选择inspect(谷歌浏览器)
会出现页面如图
点击toggle device toolbar 则会切换成手机客户端的模式。
接下来我们点击查看network,刷新页面,查看微博手机视图,看是否正常加载信息。
然后点击name中的一条,查看preview。我们想要的留言内容就在data里面。(可以仔细取探索更多内容)
我们需要的网址在headers里面,可以点击复制粘贴下来。
编码
爬取微博内容
import requests
import pandas as pd
def get_weibo_info(url):
headers ={
</