python selenium 爬取《全国农产品商务信息公共服务平台》

这是我参与的第二个项目,进程还是很顺利的。这也不断改进的过程,总共有三个版本:

  • 第一个版本是普通的爬取,对于某个农产品关键词,获取它全部的内容,后来由于我的网速太差,python运行报错了,每个农产品都拥有八百多个页面,如果重新开始,就会浪费很多时间,还不能确保它出错,于是我就改进成了第二个版本;
  • 第二个版本是对某个农产品定页爬取,爬取某个页数区间的产品,用来弥补第一个版本信息出错后,接着上次的页数爬取数据
  • 第三个版本是全自动化爬取;在第二个的基础上,浏览器的窗口总是弹出来干扰我做其他的事,所以就在这个版本中把浏览器隐藏起来,方便我工作。并且还加入随机验证码,实现全部自动化。

网址: http://nc.mofcom.gov.cn/channel/jghq2017/price_list.shtml

1、开始前工作:

1.1、分析网页

可以把这个页面简单的理解成为一个查询接口,必须要输入验证码,点击搜索才能拿到数据,我经过简单的分析后,并没有找到数据的接口,所以就直接确定使用selenium来抓取数据了。
在这里插入图片描述

1.2、分析验证码

对于存在验证码的很多网页,如果使用验证码的次数不多,我们就可以直接使用手动输入,如果它不断的有验证码,就需要让它自动识别验证码了,但是我们爬取的这个网页验证码并不多,每种产品就只需要输入一次验证码,所以可以使用手动输入,但是重点来了,该网页经过我的测试,发现它的验证码并没有实际的作业,也就是说这个验证码可以随便输入数字,也就为我的第三个版本做铺垫了!

1.3、分析URL

虽然说URL对selenium后期的爬取作用不大,但是这个的URL隐藏了大量的信息:
在这里插入图片描述

  • 默认时间只有三个月,如果需要查看更多商品的话,自己可以去更改时间
  • 在接下来的爬取中,它只是页码会有变化,其他的数据都不会改变
  • 注意:不能直接在URL上使用起始页不为1的其他页数,因为输入验证码后都是数据都是从第一页开始的
  • 建议用selenium时,不要让URL携带验证码和页数

2、第一个版本——普通的爬取

2.1、代码汇总

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from lxml import etree
import time,xlwt

startTime =time.time()#记录开始时间
all_page = []#用来保存所有页面爬取到的数据
url = 'http://nc.mofcom.gov.cn/channel/jghq2017/price_list.shtml?par_craft_index=13075&craft_index=15641&par_p_index=&p_index=&startTime=2019-10-04&endTime=2020-01-02'
driver = webdriver.Chrome()
driver.implicitly_wait(5)
chrome_option = webdriver.ChromeOptions()
chrome_option.add_argument('--proxy--server=112.84.55.122:9999')#使用代理IP
driver.get(url)#打开网页网页
driver.implicitly_wait(6)#等待加载六秒
time.sleep(10)

def next_page():
    for page in range(1,816,1):#从第1页爬取到第815页
        print ("~~~~~~~~~~正在爬取第%s页,一共有815页~~~~~~~~~"%page)
        if int(page) == 1:#当页码为1时,不需要点击下一页,直接跳转去获取html源码
            get_html()
        #点击下一页,下一页的a标签是最后一个标签
        driver.find_element_by_xpath('/html/body/section/div/div[1]/div[4]/a[last()]').click()
        get_html()
        
def get_html():
    driver.implicitly_wait(5)#等待加载,完成后自动执行下一步
    source = driver.page_source#获取网页源代码
    html = etree.HTML(source)#lxml解析网页
    spider(html)
        
def spider(html):
    for tr in html.xpath('/html/body/section/div/div[1]/table/tbody/tr'):
        time = tr.xpath('./td[1]/text()')
        if len(time) != 0:
            goods = tr.xpath('./td[2]/span/text()')#商品
            price = tr.xpath('./td[3]/span/text()')#价格
            unit = tr.xpath('./td[3]/text()')#单位
            market = tr.xpath('./td[4]/a/text()')#市场
            link = 'http://nc.mofcom.gov.cn/'+tr.xpath('./td[4]/a/@href')[0]   #详情链接                     
            page = [time,goods,price,unit,market,link]#生成数组
            all_page.append(page)
            saveData()
def saveData():
    book = xlwt.Workbook(encoding = 'utf-8')#创建工作簿
    sheet = book.add_sheet('生姜',cell_overwrite_ok=<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值