selenium+chromedriver部署到云主机并爬取东方财富网的股票评论(三)

本文是selenium+chromedriver爬取东方财富股票评论系列的第三部分,主要介绍了如何在云主机上进行基本部署,并通过多线程优化,提升运行效率。同时,部分selenium代码被替换为requests实现,以提高爬取速度。文章展示了Windows和Linux下的运行效果,并提供了源码下载。
摘要由CSDN通过智能技术生成

基本部署见:

selenium+chromedriver部署到云主机并爬取东方财富网的股票评论(一)

https://blog.csdn.net/qq_41375702/article/details/95978618

更新的内容:

  • 增加了多线程,目前为六个线程。
  • 将一部分用selenium完成的代码,用requests实现,提高了运行效率。

Windows下运行结果:

在这里插入图片描述

Linux运行结果

在这里插入图片描述

下载内容:

在这里插入图片描述

源码:

import re
import requests
import os
import time
from selenium import webdriver
import platform
from threading import Thread

class Win():
    def __init__(self):
        pass
    #抓取评论的html页和评论页数
    def get_general_page_html(self, url):
        '''
        option = webdriver.ChromeOptions()
        option.add_argument('--headless')
        driver = webdriver.Chrome(options=option)
        driver.get(url)
        '''
        html = requests.get(url).text
        return html

    # 评论页数
    def get_num(self, url):
        option = webdriver.ChromeOptions()
        option.add_argument('--headless')
        driver = webdriver.Chrome(options=option)
        driver.get(url)
        html = driver.page_source
        driver.quit()
        page = re.findall('sumpage.*?>(\d+)</span>', html, re.S)
        try:
            num = int(page[0])
        except:
            print("num = int(page[0]) error 34 lines")
        return num

    #得到评论列表的url
    def get_shrot_url_toConstruct(self,html):
        pattern=re.compile('articleh.*?l3 a3.*?href="/(.*?)" title',re.S)
        url_list=re.findall(pattern,html)
        return url_list

    #写入到txt文件
    def writen_to_file(sefl,comment, path, filename):
        totName = os.path.join(path,filename)
        with open(totName + '.txt', 'w+') as f:
            f.write(comment.strip())
        print
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值