python网络爬虫自动化下载股票类电子书(1)

6 篇文章 0 订阅

写了一个自动化下载的程序,下载了几个试了一下,发现当百度云中要下载的文件过大的时候,频繁下载需要验证码的时候,不使用百度云下载的时候,会出现下载失败,程序还要进一步改进。姑且跑一边试试

#2018-02-07:今天又尝试下载了一下,面临两个问题,第一个是百度网盘下载次数多之后会出现验证码,第二个是百度网盘的文件数是几个是不确定的,原代码仅仅只能适用一个文件的情形。后续可以尝试保存到自己的网盘中,不进行下载。

from selenium import webdriver  
from selenium.webdriver.common.keys import Keys  
import pandas as pd  
import requests  
import re
import time  
driver=webdriver.Chrome()  
def xiazai(myurl):  
    myrul=url_list[1]
    try:
        all_handles = driver.window_handles 
        if len(all_handles)==1:
           driver.switch_to_window(all_handles[0])
        if len(all_handles)>1:
            for i in range(1,len(all_handles)):
                driver.switch_to_window(all_handles[i])
                driver.close()
                driver.switch_to_window(all_handles[0])
        driver.get('http://www.88gs.com'+myurl)  
        #获取下载地址  
        page=driver.page_source  
        p_url=re.compile(r"""<ul class="downlistbox">[\s\S]*?<a href="([\s\S]*?)"><img src=""")  
        url=p_url.findall(page)[0]  
        #进入下载地址  
        driver.get('http://www.88gs.com'+url)  
        driver.find_element_by_partial_link_text('下载地址1').click()  
        all_handles = driver.window_handles #获取所有窗口句柄  
        driver.switch_to_window(all_handles[1])  
        time.sleep(5)  
        #百度网盘下载  
        #driver.find_element_by_partial_link_text('下载').click()
        driver.find_element_by_xpath('//*[@id="layoutMain"]/div[1]/div[1]/div/div[2]/div/div/div[2]/a[2]/span/span').click()
        time.sleep(5)  
        driver.close() #关闭当前窗口   
        driver.switch_to_window(all_handles[0]) #返回主窗口  
    except:  
        lose_url.append('http://www.88gs.com'+url) 
def get_url():  
    url_list=[]  
    for i in range(1,132):  
        print(i)  
        url='http://www.88gs.com/soft/sort011/list11_'+str(i)+'.html'  
        #url='http://www.88gs.com/soft/sort011/list11_131.html'  
        driver.get(url)  
        page=driver.page_source  
        p_url=re.compile(r"""mainSoftName"><a href="([\s\S]*?)"[\s\S]*?title=""")  
        url=p_url.findall(page)   
        url_list.extend(url)   
    return url_list    
url_list=get_url()   
len(url_list)  
lose_url=[]                                  
for myurl in url_list[2:]:  
    xiazai(myurl)  
    print(myurl) 


from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import pandas as pd
import requests
import re
driver=webdriver.Chrome('C:/Users/Administrator/Desktop/chromedriver.exe')
def xiazai(myurl):
    try:
        driver.get('http://www.88gs.com'+myurl)
        #获取下载地址
        page=driver.page_source
        p_url=re.compile(r"""<ul class="downlistbox">[\s\S]*?<a href="([\s\S]*?)"><img src=""")
        url=p_url.findall(page)[0]
        #进入下载地址
        driver.get('http://www.88gs.com'+url)
        driver.find_element_by_partial_link_text('下载地址').click()
        now_handle = driver.current_window_handle #获取当前窗口句柄
        all_handles = driver.window_handles #获取所有窗口句柄
        for handle in all_handles:
            if handle != now_handle:
                print (handle)    #输出待选择的窗口句柄
                driver.switch_to_window(handle)
                time.sleep(5)
                #百度网盘下载
                driver.find_element_by_partial_link_text('下载').click()
                time.sleep(5)
                driver.close() #关闭当前窗口 
        driver.switch_to_window(now_handle) #返回主窗口
    except:
        pass
def get_url():
    url_list=[]
    for i in range(1,132):
        print(i)
        url='http://www.88gs.com/soft/sort011/list11_'+str(i)+'.html'
        #url='http://www.88gs.com/soft/sort011/list11_131.html'
        driver.get(url)
        page=driver.page_source
        p_url=re.compile(r"""mainSoftName"><a href="([\s\S]*?)"[\s\S]*?title=""")
        url=p_url.findall(page) 
        url_list.extend(url) 
    return url_list  
url_list=get_url() 
len(url_list)                                  
for myurl in url_list:
    xiazai(myurl)
    print(myurl)


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Python网络爬虫自动化是指使用Python编写的程序来自动化浏览网络并获取或更新网站的内容和检索方式。网络爬虫可以自动采集所有能够访问到的页面内容,以便程序进行下一步的处理。Python语言在爬虫领域非常重要,因为它简单易学,容易上手。\[1\] 爬虫架构是爬虫开发中一个重要的概念,其中Scrapy是一个非常流行的Python爬虫框架。Scrapy是一个快速、高层次的爬虫框架,用于抓取web站点并从页面中提取结构化的数据。它可以用于数据挖掘、监测和自动化测试。Scrapy的吸引力在于它是一个框架,任何人都可以根据需求方便地进行修改。它还提供了多种爬虫的基,如BaseSpider、sitemap爬虫等。\[3\] 在爬虫开发中,常见的任务包括页面下载与解析、URL去重、URL相似性算法、并发操作和数据存储等。通过Python编写的爬虫程序可以实现这些任务,并且可以根据具体需求进行定制和扩展。\[2\] 总之,Python网络爬虫自动化是一种强大的工具,可以帮助我们自动化获取和处理网络上的数据。它在数据挖掘、监测和自动化测试等领域有着广泛的应用。 #### 引用[.reference_title] - *1* [Python爬虫自动化从入门到精通](https://blog.csdn.net/m0_67021058/article/details/129388869)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [(2.3.2)Java爬虫](https://blog.csdn.net/fei20121106/article/details/44468647)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云金杞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值