Python爬虫【八】动态网页爬虫4-爬虫实战

最新推荐文章于 2024-08-13 17:55:51 发布

假IT女

最新推荐文章于 2024-08-13 17:55:51 发布

阅读量235

点赞数

分类专栏：【Python】| 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/m0_45972448/article/details/120827773

版权

【Python】| 爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Python爬虫【八】动态网页爬虫4-爬虫实战

1、编程思维
2、实战：自动发微博
3、爬虫注意点

1、编程思维

（1）问题分解：把现实生活中的复杂问题，逐步拆分成容易解决的小问题；

（2）模式识别：根据已有的知识和经验，找出新问题和以前解决过的问题的相似性；

（3）抽象思维：将问题里涉及的数据抽象到数据结构（变量、列表、字典等），把数据处理过程可重复执行部分抽象成函数；

（4）算法设计：根据前三步的分析成果，设计步骤，写出算法，从而解决问题。

2、实战：自动发微博

发微博–登录微博、发送微博，用面向对象的方法重构代码

import requests


class WeiboCrawler:
    def __init__(self):
        self.session = requests.Session()
        self.headers = {
            'user-agent': '...',
            'referer': 'https://passport.weibo.cn/signin/login?...',
            'cookie': '...'
        }
        self.session.headers.update(self.headers)

    # 登录微博
    def login(self):
        login_data = {
            'savestate': '1',
            'r': 'https://m.weibo.cn/',
            'ec': '0',
            'pagerefer': 'https://m.weibo.cn/',
            'entry': 'mweibo',
            'wentry': '',
            'loginfrom': '',
            'client_id': '',
            'code': '',
            'qq': '',
            'mainpageflag': '1',
            'hff': '',
            'hfp': '',
        }
        self.session.post('https://passport.weibo.cn/sso/login', data=login_data)

    # 获取st
    def get_st(self):
        config_req = self.session.get('https://m.weibo.cn/api/config')
        config = config_req.json()
        st = config['data']['st']
        return st

    # 编写微博
    def compose(self, content):
        compose_data = {
            'content': content,
            'st': self.get_st()
        }
        compose_req = self.session.post('https://m.weibo.cn/api/statuses/update', data=compose_data)
        print(compose_req.json())

    # 发送微博
    def send(self, content):
        self.login()
        self.compose(content)


weibo = WeiboCrawler()
weibo.send('本条微博由 Python 发送')