这是一个使用 Python 爬取微博信息的简单示例代码:
```python import requests from lxml import etree import openpyxl
定义请求头
headers = { "Cookie": "你的 cookie", "User-Agent": "你的 user-agent" }
定义要爬取的关键词和页数
keyword = "小牛改装" page = 100
创建一个工作簿
workbook = openpyxl.Workbook()
获取工作簿的第一个工作表
worksheet = workbook.active
设置工作表的名称
worksheet.title = "微博信息"
在第一行写入表头
worksheet.cell(1, 1).value = "点赞数" worksheet.cell(1, 2).value = "转发数" worksheet.cell(1, 3).value = "评论数" worksheet.cell(1, 4).value = "图片" worksheet.cell(1, 5).value = "内容"
循环爬取每一页的信息
for i in range(1, page+1): # 构造请求的 URL url = f"https://s.weibo.com/weibo?q={keyword}&page={i}" # 发送请求,获取响应 response = requests.get(url, headers=headers) # 使用 lxml 库解析 HTML html = etree.HTML(response.text) # 使用 xpath 获取页面中的所有微博信息 weibos = html.xpath('//div[@class="card-wrap"]') # 循环遍历每一条微博 for weibo in weibos: # 获取点赞数、转发数、评论数 likes = weibo.xpath('.//div[@class="card-act"]/ul/li[1]/a/text()')[0] reposts = weibo.xpath('.//div[@class="card-act"]/ul/li[2]/a/text()')[0] comments = weibo.xpath('.//div[@class="card-act"]/ul/li[3]/a/text()')[