关于python爬虫的一篇小记

关于爬虫的一篇小记

还有两个月又到了新一年的求职旺季,下面给大家带来一段关于岗位职位的爬虫代码,话不多说直接开始
环境:
    windows
	python3.6
	chrome 浏览器
	爬虫方式-->基于selenium 
思路:
	先用selenium 向某网站发起请求,然后得到响应回来的信息,然后用工具进行解析,最后整理保存
小坑1:
	本文采用的chromedriver ,这个小插件需要自行下载安装,并安放在制定目录,以我的为例
	我的电脑在D:\ProgramData\Anaconda3\Scripts
	chromedriver 的下载地址:https://chromedriver.storage.googleapis.com/index.html 切记选择与自己浏览器所适应的版本
    完成所有工作后 chromedriver -v 看一下版本号,没报错就是成功了
	
下面开始进入代码正题,导入所需要的包
from selenium import webdriver 
import time
import csv
然后创建对象,输入要查找的岗位,等,目的获取解析要用到的的html代码
#创建浏览器对象 
driver = webdriver.Chrome()
#获取目标网页
driver.get("https://www.lagou.com/jobs/list_?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=")
#找到搜索按钮,接收终端输入,发送大搜索框 
text = driver.find_element_by_id('keyword')
key = input("输入要搜索的语言--->>>")
text.send_keys(key)
#点击搜所按钮  
button = driver.find_element_by_id('submit')
button.click()
#提取数据,分析数据 
time.sleep(2) #这里我要说一下因为浏览器插件,所有需要一定的相应和加载时间,如果加载出现速度问题,因为运行逻辑而报错,所		   以sleep一下
正常人类访问网页需要用滚动条或以前方式来一点点观看网页,这期间网页会慢慢加载出来,senlenium 也是这个逻辑,但是它并不会观看网页信息,它需要的是整个网页全部加载完成,然后可以进行下一步的匹配工作。---》
while 1:
    #执行脚本,进度条拉到最底部,加载完成后就可以进行具体信息提取了
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    time.sleep(2)
    #提取数据
    print("rlist开始")
    #采用的xpath 匹配方式
    rList = driver.find_elements_by_xpath('//li[@class="con_list_item default_list"]|//li[@class="con_list_item first_row default_list"]')
    
    time.sleep(2)
    
    print("rlist over")
    
    for r in rList:
        print("第%d个职位"%a)
        print(r)
        c = r.text.split('\n')
      
        jobTitle = c[0]#工作名称
        mye = c[3]
        jobMoney = mye.split()[0]#工资
        jobYear = mye.split()[1]#工作年限
        jobEdu = mye.split()[3]#学历
        jobCompany = c[4]#公司名称
        jobDesc = c[5:]#公司描述

        l=[jobTitle,jobMoney,jobYear,jobEdu,jobCompany,jobDesc]
        #这是保存工作,需要指出的是,如果要保存csv文件,写入的数据格式需要列表信息格式,
        with open('lagou_all.csv','a',encoding='utf-8') as f:
            writer = csv.writer(f)
            writer.writerow(l)
             
        a+=1
然后我们要添加爬虫的结束条件,核心思想是进入到爬取的大类的最后一页,查找结束标志,然后进行一下判断就完成了工作
if driver.page_source.find('pager_next pager_next_disabled') == -1:#没找到
        driver.find_element_by_class_name('pager_next ').click()
        time.sleep(2)
    else:
        print("爬取结束")
        break

好了,到这里我也说一下这篇文章的彩蛋,具体说是一个毒蛋,我的这边文章很简单,但是如果直接复制代码的同学是不能直接运行的,会报错,故意留了一个小坑,不难,仔细分析的同学可以发现,很简单的。预祝看完此文的同学新年快乐,代码顺利运行, 顺利找到工作!

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值