爬取百度贴吧帖子页内容

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

说明:仅学习参考,如有侵权,将立即删除此内容

<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

开发文档

version_2

功能:爬取输入贴吧名字(如“李毅”)的帖子内容,并保存获取的原始html文件,以及处理后的包含相关字段的json文件

函数:next_page_url.py,主要负责获取next_page_url

   page_key_info.py,主要负责获取当页关键信息的提取

   settings.py完成,存放设置

   request_response.py用来处理请求

   tiezi_total.py 实现主要逻辑,并爬取相关内容

   main_spider.py程序运行的接口(未启用)


文件:jsonfiletotal存放提取出的json数据

技术点:多线程、线程中的通讯(队列)、递归获取下页地址、生产者消费者模型

bug_1:这个版本,目前流程大体上是正确的,但是会在解析第二页内容时,报UnicodeDecodeError,目前本人没能力解决,大佬如果有经验,方便的话,希望可以提点一下。

bug_1修复:问题已解决,代码已修复,主要细节问题,出现在请求下页地址时,没有将其正确的拼凑好。

<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

源码

# settings.py


# User-Agent池
# waiting do

HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
}
# tiezi_total.py

import requests
from urllib import parse
import re
import json
from queue import Queue
from threading import Thread
import time
from settings import HEADERS
from next_page_url import NextPageUrl
from page_key_info import PageKeyInfo
from request_response import RequestResponse


class MainProcess():
    """
    接受参数:start_url,tieba_name
    """

    def __init__(self, tieba_name, url):
        self.tieba_name = tieba_name
        self.url = url.format(parse.quote(tieba_name))
        self.url_queue = Queue()
        self.rawhtml_queue = Queue()
        self.content_queue = Queue()

    def __make_url_and_rawhtml(self, url):
     """生产url和rawhtml""" # self.url_queue.put(url) html_str = RequestResponse(url).run() next_page_url = NextPageUrl(html_str).run() print(next_page_url) # 将html字符串放入队列 self.rawhtml_queue.put(html_str) while next_page_url: self.url_queue.put(next_page_url) return self.__make_url_and_rawhtml(next_page_url) def __make_key_info(self):
     """消费url和rawhtml,生产content""" while self.url_queue.not_empty and self.rawhtml_queue.not_empty: # 从队列中取出一一对应的url和rawhtml url = self.url_queue.get() html_str = self.rawhtml_queue.get() item_list = PageKeyInfo(html_str).run() # 将当前页url放入相关数据中返回 item = dict(current_page_url=url) item_list.append(item) # 将相关数据放入队列 self.content_queue.put(item_list) # 显示状态 print("开始从当前{}提取信息".format(url)) # 队列计数减1 self.url_queue.task_done() self.rawhtml_queue.task_done() def __save_json_file(self): """保存相关数据为json文件,消费content""" while self.content_queue.not_empty: # 从队列取数 content = self.content_queue.get() # 构造fil
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值