Python 爬虫项目实战（八）：爬取微博网页端评论

Suc2es2

于 2024-08-06 11:18:26 发布

阅读量9.5k

点赞数 9

分类专栏： # 爬虫文章标签： python 爬虫开发语言网络安全安全安全架构 web安全

本文链接：https://blog.csdn.net/2302_82189125/article/details/140933610

版权

爬虫专栏收录该内容

9 篇文章 17 订阅

订阅专栏

前言

网络爬虫（Web Crawler），也称为网页蜘蛛（Web Spider）或网页机器人（Web Bot），是一种按照既定规则自动浏览网络并提取信息的程序。爬虫的主要用途包括数据采集、网络索引、内容抓取等。

爬虫的基本原理

种子 URL：爬虫从一个或多个种子 URL 开始，这些 URL 是起点。
发送请求：爬虫向这些种子 URL 发送 HTTP 请求，通常是 GET 请求。
获取响应：服务器返回网页的 HTML 内容作为响应。
解析内容：爬虫解析 HTML 内容，提取所需的数据（如文本、链接、图片等）。
提取链接：从网页中提取出所有链接，并将这些链接加入待访问队列。
重复过程：爬虫重复上述步骤，直到达到某个停止条件，如爬取了一定数量的页面，或所有页面都被爬取完毕。

爬虫的分类

通用爬虫
- 设计用于抓取整个互联网的大量网页。搜索引擎（如 Google、Bing）的爬虫就是通用爬虫。
聚焦爬虫
- 专注于特定主题或领域，抓取相关网页。比如，一个新闻爬虫只抓取新闻网站的内容。
增量爬虫
- 仅抓取自上次爬取以来发生变化或更新的网页，适用于动态内容更新频繁的网站。

爬虫的合法性和道德

在编写和运行爬虫时，必须遵循以下原则：

遵守网站的 robots.txt：
- 大多数网站都有一个 robots.txt 文件，规定了哪些页面允许被爬取，哪些不允许。爬虫应当尊重这些规则。
避免过度抓取：
- 设置适当的抓取频率，避免对服务器造成过大负担。
尊重版权和隐私：
- 不应抓取或使用受版权保护的内容，或涉及用户隐私的数据。
获取许可：
- 在某些情况下，最好获得网站管理员的许可，特别是当你打算频繁地抓取大量数据时。

通过以上方法和原则，可以编写高效、可靠且合规的网络爬虫来满足数据采集的需求。

侦察

页面如下

查找数据来源

请求地址与方法

源代码

import pprint
import re
import requests
from datetime import datetime


def main():
    # 请求地址
    url = 'https://m.weibo.cn/comments/hotflow?id=5064076086744242&mid=5064076086744242&max_id_type=0'

    # 伪造请求头
    headers = {
        'referer': 'https://m.weibo.cn/detail/5064076086744242',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
    }

    # 请求数据
    res = requests.get(url, headers=headers)

    # 遍历 json 数据
    # ['data']: 这表示访问上一步得到的对象的data属性
    for index in res.json()['data']['data']:
        # 创建字典保存数据
        dic = {
            '用户': index['user']['screen_name'],
            '地区': index['source'],
            # < 和 > 分别匹配HTML标签的开始和结束。
            # [ ^ >] 匹配除了 > 之外的任何字符。
            # + 表示匹配前面的字符一次或多次。
            '评论内容': re.sub(r'<[^>]+>', '', index['text']),
            # % a表示星期的缩写名（例如，Mon）
            # %b 表示月份的缩写名（例如，Aug）
            # %d 表示月份中的日（00 - 31）
            # %H 表示小时（00 - 23）
            # %M 表示分钟（00 - 59）
            # %S 表示秒（00 - 59）
            # %z 表示UTC偏移量（例如，+0800）
            # %Y 表示四位年份（0000 - 9999）
            '时间': datetime.strptime(index['created_at'], '%a %b %d %H:%M:%S %z %Y').strftime('%Y-%m-%d %H:%M:%S')

        }

        print(dic)


if __name__ == '__main__':
    main()

项目效果

Suc2es2

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python 爬虫项目实战（八）：爬取微博网页端评论

网络爬虫（Web Crawler），也称为网页蜘蛛（Web Spider）或网页机器人（Web Bot），是一种按照既定规则自动浏览网络并提取信息的程序。爬虫的主要用途包括数据采集、网络索引、内容抓取等。robots.txt大多数网站都有一个robots.txt文件，规定了哪些页面允许被爬取，哪些不允许。爬虫应当尊重这些规则。通过以上方法和原则，可以编写高效、可靠且合规的网络爬虫来满足数据采集的需求。
复制链接

扫一扫