【python】使用requests多线程爬取论坛文章并存储在sqlite中

代码仅仅是例子,主要是方法的使用,因为是韩国论坛需要代理才能访问。欢迎留言讨论

import threading
import requests
from bs4 import BeautifulSoup
import base64
import sqlite3
import re
import datetime
from multiprocessing.dummy import Pool as ThreadPool
# import _thread
conn = sqlite3.connect('reptile.db')     #连接数据库
# 连接到SQLite数据库
c = conn.cursor()
# 目标网站 URL
# url = 'https://www.ppomppu.co.kr/zboard/zboard.php?id=freeboard&hotlist_flag=999'


#爬取整页文章及内容
def getBBS(page):  
    url = 'https://www.ppomppu.co.kr/zboard/zboard.php?id=freeboard&hotlist_flag=999&page='+str(page)
    # 发送请求并解析 HTML
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

# 提取文章信息
    articles = []
    for article in soup.select('.list0,.list1'):
       author = article.select_one('.list_name').text.strip()
       title = article.select_one('.list_title').text.strip()
       uid=article.find_all('td',class_='eng list_vspace')[0].text.strip()
       timestamp = article.find_all('td',class_='eng list_vspace')[1].get('title')
       content_url ='https://www.ppomppu.co.kr/zboard/'+article.find_all('a')[1].get('href')
       content_response = requests.get(content_url)
   
       content_soup = BeautifulSoup(content_response.content, 'html.parser')
       date=content_soup.find('div',class_='sub-top-text-box').get_text()

       print(date)
       pattern = r"\d{4}-\d{2}-\d{2} \d{2}:\d{2}"
       match = re.search(pattern, date)

       if match:
         print("匹配到的时间为:", match.group(0))
         date=match.group(0)
       else:
         print("未找到匹配的时间")
         # 获取当前时间
         now = datetime.datetime.now()

         date=now
       content_element = content_soup.find_all('table',class_='pic_bg')[2]
       if content_element:
           content = content_element.text.strip()
           images = content_element.find_all('img')
           image_data = []
           for image in images:
               image_url = image['src']
               image_response =requests.get('https:'+image_url)
            #    image_data.append(base64.b64encode(image_response.content).decode())

                 # 将 img 标签的 src 属性替换成 base64 编码的内容
               base64_data = base64.b64encode(image_response.content).decode()
               image["src"] = "data:image/png;base64," + base64_data
               print(content_element)
            #    content_element=content_element.replace(image_url,image["src"])
            #    print(content_element)
        #    articles.append({
        #     'author': author,
        #     'title': title,
        #     'timestamp': timestamp,
        #     'content': content,
        #     'images': image_data
        # })
         
           print('作者:', author)
           print('标题:', title)
           print('发布时间:', timestamp)  
           content=str(content_element)
           # 插入一条记录
           c.execute("INSERT OR IGNORE INTO getData (dataID,textID,dataName,textUrl,textTitle,textTime,textBody,textState,textName,regTime,EncodingStr) VALUES(:dataID,:textID,:dataName,:textUrl,:title,:textTime,:textBody,:textState,:author,:regTime,:EncodingStr)",
                     {"dataID":'1',"textID":uid,"dataName":'ppomppu','textUrl':content_url,'title':title,'textTime':date,'textBody':content,'textState':'1','author':author,'regTime':timestamp,'EncodingStr':'EUC-KR'})
# 提交当前事务,保存数据
           conn.commit()

           print(articles)


# 开始
def startUp():
    # urls = ['https://www.ppomppu.co.kr/zboard/zboard.php?id=freeboard&hotlist_flag=999&page={}'.format(i) for i in range(1, 6575)]
    # 设置线程数量
    num_threads = 10
    # 设置要爬取的页数
    pages = range(1, 10000)
    # 创建线程池
    pool = ThreadPool(num_threads)
    # 在线程池中运行函数
    results = pool.map(getBBS, pages)
    # 关闭线程池
    pool.close()
    pool.join()


if __name__ == '__main__':  
    startUp()

    
# 打印文章信息
# def print():
#   for article in articles:
#     print('作者:', article['author'])
#     print('标题:', article['title'])
#     print('发布时间:', article['timestamp'])
#     print('文章内容:', article['content'])
#     print('文章图片:', article['images'])
#     print('------------------------')
# 关闭数据库连接
conn.close()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫是一种用于自动化从网站上抓取数据的工具,要爬取最少一万条数据,你需要考虑以下几个关键步骤: 1. **目标选择**:明确你要抓取的数据来源和格式,比如某个网页的HTML结构或API接口。 2. **库的选择**:Python有许多爬虫库,如`BeautifulSoup`、`Scrapy`、`Requests`等。`BeautifulSoup`适合简单的网页解析,而`Scrapy`则适合大型复杂项目,有更强大的功能。 3. **请求与响应**:使用`requests`库发起HTTP请求获取网页内容,然后使用解析库(如`BeautifulSoup`)解析HTML。 4. **数据提取**:编写代码来查找并提取你需要的数据。这通常涉及到XPath或CSS选择器等技术。 5. **数据存储**:设置数据存储方式,例如CSV、JSON、数据库(如SQLite、MySQL)或文件,根据数据量大小来决定。 6. **并发处理**:为提高效率,可以使用多线程或多进程,或者第三方库如`grequests`进行异步请求。 7. **异常处理与爬虫控制**:编写代码来处理可能出现的网络错误、反爬策略(如验证码、频率限制)以及数据清洗。 8. **爬虫设计与优化**:遵循robots.txt规则,避免对目标站点造成过大压力,适时设置延时和限速。 9. **监控与日志**:跟踪爬虫运行状态,记录错误和日志,以便于调试和维护。 **相关问题--:** 1. 你能推荐一个适合初学者的Python爬虫库吗? 2. 如何处理网站的反爬机制? 3. 什么是robots.txt文件,爬虫应该如何遵守?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值