多线程+反爬:爬取阿里巴巴国际站物流表现数据到mysql

网页链接
需爬取的内容:所有国家所有物流渠道时效表现在这里插入图片描述
爬取内容展示:
在这里插入图片描述
上代码:

from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
import random
import requests
import time
import json
import threading
import pymysql
import datetime


def channellist():
    list = []
    url = 'https://ilogistics.aliexpress.com/recommendation_engine_public.htm'
    response = urlopen(url)
    soup = BeautifulSoup(response, 'html.parser')
    a = soup.select('div[class = "service-list-class-block"]>li>input')
    for item in a:
        value = item['value']
        list.append(value)
    return list
    
#构造随机切换响应头列表
ua_list = [
"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36",
 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',
 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)',
 "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36"
]

headers = {
"origin":"https://ilogistics.aliexpress.com",
"referer":"zhttps://ilogistics.aliexpress.com/recommendation_engine_public.htm",
"sec-fetch-mode":"zcors",
"sec-fetch-site":"zsame-origin",
"content-type":"application/x-www-form-urlencoded; charset=UTF-8",
"accept":"application/json, text/javascript, */*; q=0.01",
"accept-encoding":"gzip, deflate, br",
"accept-language":"zh-CN,zh;q=0.9,en;q=0.8",
"User-Agent": random.choice(ua_list)
}

form = {"_csrf_token_":"409mp_mcutc9",
"logistics-services-set":"/",
"logistics-services-list-all":"[[Ljava.lang.String;@4d577287,",
"logistics-class-filter":"ALL",
"sort-by-recommend-points":"0",
"sort-by-logistics-freight":"0",
"toCountry":"RU",
"fromCountry":"CN",
"logistics-express-item":"CAINIAO#CAINIAO_STANDARD_SG#CAINIAO_STANDARD_SG#STANDARD",
"limitedGoods":"general",
"orderAmount":"",
"packageWeight":"",
"packageLength":"",
"packageWidth":"",
"packageHeight":""
}

#爬取内容函数
def getCountryDict():  #得到国家对应二字码的字典及列表
    dict = {}
    list =[]
    url = 'https://ilogistics.aliexpress.com/recommendation_engine_public.htm'
    response = urlopen(url)
    soup = BeautifulSoup(response, 'html.parser')
    a = soup.select('select[name="toCountry"]>option')
    for item in a:
        value = item['value']
        name = item.string
        dict[name] = value
        list.append(value)
    dict.pop('Other Country')
    list.remove('OTHER')
    list.remove('Other')
    return [dict,list]

countryDict = getCountryDict()

currentdate = datetime.date.today() #当前日期作为版本号插入

def splitDict(list,dict,n):  #切分字典
    for i in range(0,len(list),n):
        tem_dict ={key: value for key, value in dict.items() if value in list[i:i+n]}
        yield tem_dict

url = "https://ilogistics.aliexpress.com/recommendationJsonPublic.do"
i = 1
channels = channellist()
irank = list(i for i in range(100,1000,100))

def grabContent(countrydict):
    global i
    session = requests.session()
    for k,v in countrydict.items():
        for channel in channels:
            form["toCountry"] = v
            form["logistics-express-item"] = channel
            response = session.post(url, headers=headers, data=form, verify=False)
            aa = response.content.decode('utf-8')
            b = json.loads(aa)
            # print(b['logisticsServices'][0]['dsr'])
            if 'logisticsServices' in b.keys() and len(b['logisticsServices']) != 0 and   b['logisticsServices'][0]['recommendPoints'] != '-' and  b['logisticsServices'][0]['recommendPoints'] != 'No data available':
                serviceName = b['logisticsServices'][0]['serviceName']
                logisticsClass = b['logisticsServices'][0]['logisticsClass']
                recommendPoints = b['logisticsServices'][0]['recommendPoints']
                deliveryPeriod = b['logisticsServices'][0]['deliveryPeriod']
                dispute = b['logisticsServices'][0]['dispute']
                dsr = b['logisticsServices'][0]['dsr']
                freight = b['logisticsServices'][0]['freight']
                list = [k, serviceName, logisticsClass, recommendPoints, deliveryPeriod, dispute, dsr, freight]
                list2 = [serviceName,logisticsClass,recommendPoints,deliveryPeriod,dispute,dsr,'-',k,currentdate ]
                conn = pymysql.connect(host="localhost", user="root", password="123456", database="test",
                                       charset="utf8", port=3306)
                cursor = conn.cursor()
                sql = """insert into smt_monitor
                      (service_name,type,recommend_index,timeliness,dispute_rate,DSR,more_info,destination,version)
                      values('%s','%s',%s,'%s','%s','%s','%s','%s','%s')""" % tuple(list2)
                try:
                    cursor.execute(sql)
                    conn.commit()
                except:
                    conn.rollback()

                print("写入:" + str(i) + "行")
                i += 1
            if i in irank:
                time.sleep(2) #多层伪装停顿,防止服务器断开
            time.sleep(1)
        else:
            print(b)
            time.sleep(1)
    cursor.close()
    conn.close()


temDicts = splitDict(countryDict[1],countryDict[0],10)
threadlists = []   #创建一个列表装线程对象
for temDict in temDicts:
   threadlists.append(threading.Thread(target=grabContent,args=(temDict,))) #把线程对象放进列表
if __name__ == '__main__':
    for target in threadlists:
        target.start() #启动每一个线程



  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python是一种非常流行的编程语言,它具有众多优势,包括易学易用、开发效率高等。在数据爬取方面,Python也具有相对优势,可以通过多线程和多进程来提高数据爬取效率。 多线程是一种将一个进程分为多个线程执行的技术,可以有效利用计算机的资源,同时完成多个任务。在数据爬取方面,可以将多个URL请求分配到不同的线程中去执行,从而实现同时请求多个URL,提高数据爬取速度和效率。 多进程则是将一个任务分为多个进程执行,每个进程有自己的资源和空间,在数据爬取方面,可以将不同的URL请求分配到不同的进程中去执行,这样可以充分利用计算机的多核处理器,同时完成多个任务,提高数据爬取效率。 在使用Python进行数据爬取时,需要根据实际的情况选用合适的多线程或多进程方式来处理数据,其中需要注意线程间共享资源的问题,尤其是多个线程同时访问同一份数据时需要进行合理的控制和调度。 总的来说,通过使用Python多线程和多进程技术,可以有效提高数据爬取效率,从而更好的服务于数据分析和应用。 ### 回答2: 随着互联网的发展,数据量爆炸式增长,数据爬取成为了许多公司和个人必不可少的工作。而对于数据爬取而言,效率和速度是非常重要的因素。因此,在进行大规模数据爬取时,采用多线程或多进程技术可以大大提高爬取效率。 首先,我们来理解一下什么是多线程和多进程。多线程是在一个进程内开启多个线程,这些线程共享进程的资源,如内存等。多线程适合IO密集型的操作,如网络爬虫、文件读写等。而多进程则是在操作系统中开启多个进程,各自拥有独立的资源,如内存、文件等。多进程适合CPU密集型的操作,如图像识别、加密解密等。因此,在选择多线程还是多进程时,需要根据具体爬取任务进行考虑。 对于Python而言,它可以通过使用 threading 和 multiprocessing 模块来实现多线程和多进程,分别引入 Thread 和 Process 两个类。而在网络爬虫中,多线程运行多个爬取任务,可以大大提高页面的下载速度。在爬虫程序中,我们可以通过 Python 对于 urllib 和 requests 模块进行多线程异步请求,利用 Python 线程池 ThreadPoolExecutor 和 asyncio 模块的异步特性,实现高性能网络爬虫。 另外,在进行数据爬取时,需要注意反爬机制,如设置合适的请求头、降低请求频率等。同时,也需要注意保持数据的一致性和准确性。在使用多线程或多进程进行数据爬取时,也需要注意线程和进程间的交互和同步,如使用队列等数据结构进行数据共享、使用锁机制进行数据的同步等。 综上所述,Python 多线程多进程爬取大量数据可以提高爬取效率和速度,但也需要根据具体任务进行选择。同时,在进行数据爬取时需要注意反爬机制和数据的一致性和准确性,保证数据的安全和可信度。 ### 回答3: Python作为一种高级编程语言,在数据采集和分析方面具有优秀的表现。为了能更快地完成数据爬取任务,Python可以使用多线程和多进程方式。下面我们来介绍一下这两种方式具体的特点和使用方法。 首先,Python多线程方式是通过创建多个线程来同时执行任务,这些线程共享同一个进程空间,因此可以用来提高数据爬取效率。在多线程模式下,每个线程都有自己的任务和数据,这些线程可以并行地执行,从而大大提升了数据爬取的速度。同时,多线程也可以实现类似于并发、异步的效果,因为每个线程都可以独立地进行访问和解析等操作。 然而,在Python中使用多线程还是存在一些限制的。由于GIL(Global Interpreter Lock)的限制,多线程模式不能充分利用多核CPU的优势,因为这些线程都是在同一个进程中运行的,而GIL只允许有一个线程在同一时间内执行Python代码。因此,在需要利用多核CPU的情况下,需要使用多进程方式。 基于多进程的方式,可以将一个任务划分为若干个子任务,每个子任务运行在独立的进程中,它们之间互不干扰。这样,每个进程都可以利用独立的CPU核心来执行任务,从而提高了并发性和整体运行效率。而且,在多进程模式下,Python可以很好地利用操作系统的资源管理功能,同时能够充分利用硬件资源,实现高效的数据爬取。 总的来说,Python多线程和多进程方式都可以用来实现数据爬取,并且都有各自的优点和适用场景。在实际应用中,应该根据任务的复杂度和硬件环境等因素来选择最适合的方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值