python爬虫，百度贴吧（巴塞罗那）

Alive Ιеι

于 2021-04-05 17:59:33 发布

阅读量321

点赞数

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Alive_lei/article/details/115445662

版权

爬虫专栏收录该内容

9 篇文章 1 订阅

订阅专栏

coding=utf-8

“”"
author:lei
function:
“”"

import requests
from lxml import etree
import json

class TieBaBaSa(object):

def __init__(self, name):
    self.url = "https://tieba.baidu.com/f?ie=utf-8&kw={}".format(name)
    self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"}

def get_data(self, url):
    response = requests.get(url, headers=self.headers).content.decode()

    return response.replace("<!--", "").replace("-->", "")

def parse_data(self, data):
    html = etree.HTML(data)
    el_list = html.xpath('''//ul[@id='thread_list']//li//div[@class="col2_right j_threadlist_li_right"]

‘’’)
if len(el_list) == 0:
el_list = html.xpath(’’’//ul[@id=‘thread_list’]//li//div[@class="col2_right j_threadlist_li_right "]’’’)

    print(el_list)

    data_list = []

    for el in el_list:
        temp = {}
        temp["title"] = el.xpath("./div/div/a/text()")[0]
        temp["writer"] = el.xpath("./div/div[2]/span/@title")[0]
        # temp["content"] = el.xpath("./div/div/div[2]/text()")
        # print(temp)
        data_list.append(temp)

    next_url = "https:" + html.xpath("//a[contains(text(), '下一页>')]/@href")[0]

    return data_list, next_url

def save_data(self, data_list):
    with open("tieba.json", "a", encoding="utf-8") as f:
        f.write(json.dumps(data_list, ensure_ascii=False))
        print("保存成功!")

def run(self):
    next_url = self.url

    while True:
        data = self.get_data(next_url)
        data_list, next_url = self.parse_data(data)
        self.save_data(data_list)
        if next_url is None:
            break

if name == ‘main’:
tieba = TieBaBaSa(“巴塞罗那”)
tieba.run()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫，百度贴吧（巴塞罗那）

coding=utf-8“”"author:leifunction:“”"import requestsfrom lxml import etreeimport jsonclass TieBaBaSa(object):def __init__(self, name): self.url = "https://tieba.baidu.com/f?ie=utf-8&kw={}".format(name) self.headers = {"User-Agent": "Mo
复制链接

扫一扫

专栏目录

Alive Ιеι CSDN认证博客专家 CSDN认证企业博客

码龄5年

164: 原创

23万+: 周排名

78万+: 总排名

27万+: 访问

: 等级

3365: 积分

63: 粉丝

122: 获赞

51: 评论

346: 收藏

私信

关注

热门文章

分类专栏

机器学习 26篇
深度学习 27篇
pytorch 4篇
爬虫 9篇
C语言 108篇
keras 1篇
python 36篇
socket 1篇
迷你服务器 1篇

最新评论

用迭代法求平方根公式：求a的平方根的迭代公式为： X[n+1]=(X[n]+a/X[n])/2 要求前后两次求出的差的绝对值少于0.00001。输出保留3位小数（长浮点数需要用Lf来输出）
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8011418, 请多输出高质量博客, 帮助更多的人
输入一个双精度浮点数，输出这个浮点数的%f结果、保留5位小数的结果、%e、%g格式的结果
遇见57: 为什么不能在同一行输出啊
机器人写唐诗，模型训练
Alive Ιеι: 如果可以，希望上帝能快快帮助我找到那个人，希望，我不在独自难过。不知道再回来看写的这些东西是什么时候，希望那时我已经博士毕业，希望那时我已找到了我爱的人，爱我的人。加油呀，千万不要被这个世界打倒，你会愈加更好的！！！
机器人写唐诗，模型训练
Alive Ιеι: 没想到都四年了，四年前决定学python，决定学人工智能，没想到4年过去了，假如这4年没有接触人工智能，继续做我的网安，会不会更好。但是，学了人工智能让我感受到很多快乐，很多很多快乐。虽然人工智能真的很难，虽然自己真的差劲，但过去了这么久，随着时间的累计，好似自己也没有那么差，没有那么差。今天是个悲伤的一天，与一个人说再也不见的一天。难过到无法自拔，自卑油然而生。但是，这就是生活，相信我会遇到要遇到的那个人，希望这一天不太远。
依旧是输入三个整数，要求按照占8个字符的宽度，并且靠左对齐输出
G_2556108203: 没问题啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。