使用python多线程爬虫亚马逊（selenium库）

最新推荐文章于 2024-05-13 17:48:00 发布

Aurorapeak

最新推荐文章于 2024-05-13 17:48:00 发布

阅读量814

点赞数

分类专栏：数据仓库笔记文章标签： python selenium 爬虫亚马逊

本文链接：https://blog.csdn.net/Qiaozian/article/details/113519985

版权

selenium库的使用

先在命令行 pip install selenium安装好库

再下载geckodriver(火狐浏览器的driver，也可以使用Chrome，网上搜一下)

将下载的压缩包解压，把里面的geckodriver放到火狐浏览器的安装目录下，例如C:\Program Files\Mozilla Firefox

把火狐浏览器的安装目录添加到系统环境变量中的Path

爬虫代码

import re
from selenium import webdriver
import pandas as pd
import xlwt
import threading
import time
url = 'https://www.amazon.com/dp/'  #亚马逊网址基础目录，后面跟产品号是各个产品对应的目录
df=pd.read_excel('srcdata.xlsx')    #改成自己的原始数据路径，这里存储一列产品号——asin
savepath="info.xls"                 #改成自己的保存数据路径
nm =0                               #设置读取srcdata文件的起始行
cancel = 100                        # 设置结束读取srcdata的位置
CRAWL_EXIT = False
workbook = xlwt.Workbook(encoding = 'utf-8')
# 自定义线程
class crawlThread (threading.Thread):
    def __init__(self, name, lock):
        threading.Thread.__init__(self)
        self.name = name
        self.lock = lock
    def run(self):
        global nm
        global CRAWL_EXIT
        count_movie=0
        out=self.name
        worksheet = workbook.add_sheet(out)
        #要爬取的网页关键内容
        temp=('asin','电影名', '时长', '上映年份', '导演', '演员', '类别', '语言', '格式','版本','制片方','用户评分')
        for i in range(12):
            worksheet.write(0,i,temp[i])
        while(CRAWL_EXIT != True):
            #初始化电影名、时长、上映年份、导演、演员、类别、语言、格式、版本、制片方、用户评分
            mtitle=""
            runtime=""
            release=""
            director=""
            actor=""
            genre=""
            language=""
            mformat=""
            version=""
            producer=""
            review=""
            #使用火狐浏览器爬取①
            browser = webdriver.Firefox()
            #每爬完一个网页删除cookie减少被反爬概率
            browser.delete_all_cookies()
            if nm > cancel:
                CRAWL_EXIT = True
            self.lock.acquire()  # 获得锁
            #获得网址
            try:
                pro_id=str(df.loc[nm][

最低0.47元/天解锁文章

Aurorapeak

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
使用python多线程爬虫亚马逊（selenium库）

selenium库的使用先在命令行 pip install selenium安装好库再下载geckodriver(火狐浏览器的driver，也可以使用Chrome，网上搜一下)将下载的压缩包解压，把里面的geckodriver放到火狐浏览器的安装目录下，例如C:\Program Files\Mozilla Firefox把火狐浏览器的安装目录添加到系统环境变量中的Path爬虫代码import refrom selenium import webdriverimport pandas as p
复制链接

扫一扫