python的简单爬取代码之小白教程（微博热门标题）

最新推荐文章于 2024-09-02 07:13:16 发布

木柚杂货店

最新推荐文章于 2024-09-02 07:13:16 发布

阅读量627

点赞数 2

分类专栏：代码集学习文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_51383760/article/details/111592221

版权

学习同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

代码集

14 篇文章 1 订阅

订阅专栏

python的简单爬取代码之小白教程（微博热门标题）

一、请求网站响应获取网页源代码
二、利用正则定位到每个热搜
- 1.查看源码
- 2.使用正则直接定位
三、打印热搜
- 1.rjust()的用法
- 2.打印
四、全部代码及效果图
- 1.全部代码
- 2.效果图

一、请求网站响应获取网页源代码

1.观察微博搜索热搜榜

微博热搜

2.准备工作

安装request模块
win+r调出运行窗口输入cmd
在这里插入图片描述
输入

pip install requests

回车等待安装完成
在这里插入图片描述
requests使用方法

3.上代码

import requests  # 导入requests模块
import re  # 导入re模块

url = "https://s.weibo.com/top/summary?cate=realtimehot"  # 网站

# 请求头
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/'
                  '70.0.3538.25 Safari/537.36 Core/1.70.3776.400 QQBrowser/10.6.4212.400'
}

# 请求网站源码文本
response = requests.get(url, headers=headers).text

使用浏览器开发者工具获取请求头headers 在这里插入图片描述

二、利用正则定位到每个热搜

1.查看源码

在这里插入图片描述
发现热搜都在一个tr标签内

2.使用正则直接定位

import re
text = re.findall('<td\s+class="td-02">.*?<.*?>(.*?)</a>.*?</td>', response, re.DOTALL)

"\s+"匹配一个或多个空格
“.*?”1匹配后面出现的第一个字符1
" class=“td-02” "是热搜文本特有的标志，要加上
“re.DOTALL ”这使得正则表达式匹配不受换行符限制，
返回的text是包含匹配到的文本列表。

三、打印热搜

1.rjust()的用法

a1=[]
for i in range(10):
    b=str(i).rjust(2, '0')
    a1.append(b)
print(a1)
a2=[]
for i in range(10):
    b=str(i).rjust(3, '0')
    a2.append(b)
print(a2)

a1=['00', '01', '02', '03', '04', '05', '06', '07', '08', '09']
a2=['000', '001', '002', '003', '004', '005', '006', '007', '008', '009']

2.打印

a = 1
for i in text:  # 遍历列表
    hot = f"{str(a).rjust(2, '0')}.{i}"  # 遍历列表后加上序号
    print(hot)  # 打印热搜
    a += 1

四、全部代码及效果图

1.全部代码

import requests  # 导入requests模块
import re  # 导入re模块

url = "https://s.weibo.com/top/summary?cate=realtimehot"  # 网站

# 请求头
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/'
                  '70.0.3538.25 Safari/537.36 Core/1.70.3776.400 QQBrowser/10.6.4212.400'
}

# 请求网站源码文本
response = requests.get(url, headers=headers).text
# re定位热搜文本位置
text = re.findall('<td\s+class="td-02">.*?>(.*?)<.*?</td>', response, re.DOTALL)
# text是一个50个热搜的列表

a = 1
for i in text:  # 遍历列表
    hot = f"{str(a).rjust(2, '0')}.{i}"  # 遍历列表后加上序号
    print(hot)  # 打印热搜
    a += 1