利用python爬取百度贴吧源码

最新推荐文章于 2023-09-04 20:27:44 发布

Jie_Ger

最新推荐文章于 2023-09-04 20:27:44 发布

阅读量605

点赞数 1

分类专栏： python爬虫文章标签： python 爬虫源码

本文链接：https://blog.csdn.net/jie_ger/article/details/84308537

版权

本文介绍如何使用Python爬取百度贴吧的源码。虽然直接查看保存的源码可以看到内容，但在浏览器中无法完整打开，因为百度进行了防爬处理，将大部分源码隐藏在注释中。通过解析这些注释和利用JSON处理，可以揭示完整的网页信息。

摘要由CSDN通过智能技术生成

import requests

class tieba(object):
    def __init__(self,tieba_name):
        self.tieba_name = tieba_name
        self.start_url = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&pn={}'
        self.headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) '
                                     'AppleWebKit/537.36 (KHTML, like Gecko) '
                                     'Chrome/70.0.3538.77 '
                                     'Safari/537.36'}

    def get_url_list(self):
        #构造url列表
        url_list = []
        for i in range(10):
            url_list.append(self.start_url.format(i*50))
        print(url_list)
        return url_list


    def parse_url(self,url):
        response = requests.get(url,headers = self.headers)
        return response.content.decode()


    def save_html(self,html,num):
        with open('英雄联盟贴吧源码