爬取拉勾网“全国”“数据分析”、“深圳市”“数据分析”岗位招聘信息并进行分析

  1. 数据爬取:先编写了Python程序对“拉勾网”进行“数据分析”岗的招聘信息并存储为csv格式。其中使用到Request Headers伪装成浏览器来访问网页,由于网站的反爬措施,仅使用请求头的信息仍然会弹出错误提示,因此需要使用*Request.Seeion()*生成cookies小饼干来维持会话。连接成功之后则是使用到json来解析网页信息,并通过循环的方式爬取出我们需要的信息。详细的代码见下图。
  2. 数据清洗:由于爬取到的数据中,薪资待遇一栏为区间的形式,难以对其进行分析,因此需要将其分解为“起薪”和“最高薪资”。将“工作经验”字段转换为“平均经验”字段。这一部分主要使用到正则表达式来选择一个数据中的数字类型字符,并通过循环添加到列表并生成新的字段。
  3. 数据分析:分别以“城市”、“薪资待遇”、要求等进行了数据的可视化分析,以及对福利待遇进行了词云的生成,主要使用到jieba库对文字进行分词,以及wordcloud库配合matplotlib生成词云图。
  4. 详细代码以及过程如下:
    在这里插入图片描述
  5. 结论
    1. “数据分析”岗在全国中,北京的需求量最多,达到60%的占比,排在第二的则是上海,约占33.3%左右,深圳和广州各约占16.7%的比例。而在深圳市,南山区的需求量远超其他区域,266条数据中有198条均在南山区,可见南山区各大互联网公司对“数据分析”岗的需求。
    2. 从分析的结果来看,“数据分析”岗的薪资待遇能达到1.5万元也是相当不错了,并且从词云图中可见,“平台”、“氛围”、“团队”、“发展空间”等也是相当的吸引人~
    3. 分析结果也显示,该岗位对本科学历的同学也是非常的友好呢~
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
WebMagic是Java语言编写的一款爬虫框架,它基于Jsoup解析器实现,可以轻松地爬取各种站上的数据。下面是使用WebMagic爬取拉勾招聘数据的方法: 1. 首先,需要导入WebMagic相关的依赖包,可以在pom.xml文件中添加以下代码: ``` <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-selenium</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>org.seleniumhq.selenium</groupId> <artifactId>selenium-firefox-driver</artifactId> <version>2.53.1</version> </dependency> ``` 2. 创建一个Java类,用于定义需要爬取的数据结构。例如,我们可以定义一个Job类,用于存储招聘信息: ``` public class Job { private String name; //职位名称 private String salary; //薪资范围 private String company; //公司名称 private String location; //工作地点 private String experience; //工作经验要求 private String education; //学历要求 private String label; //职位标签 //省略setter和getter方法 } ``` 3. 创建一个实现PageProcessor接口的Java类,用于定义爬虫的逻辑。例如,我们可以定义一个LaGouProcessor类,用于爬取拉勾招聘信息: ``` public class LaGouProcessor implements PageProcessor { private Site site = Site.me() .setRetryTimes(3) //重试次数 .setSleepTime(1000) //访问间隔 .setUserAgent(UserAgentUtil.getRandomUserAgent()); //随机User-Agent @Override public void process(Page page) { List<Job> jobList = new ArrayList<>(); List<String> jobUrls = page.getHtml().links().regex("https://www.lagou.com/jobs/\\d+.html").all(); for (String jobUrl : jobUrls) { page.addTargetRequest(jobUrl); //添加详情页链接到抓取队列 } if (page.getUrl().regex("https://www.lagou.com/jobs/\\d+.html").match()) { //详情页 Job job = new Job(); job.setName(page.getHtml().xpath("//div[@class='job-name']/span/text()").get()); job.setSalary(page.getHtml().xpath("//dd[@class='job_request']/h3/span[1]/text()").get()); job.setCompany(page.getHtml().xpath("//div[@class='company']/text()").get()); job.setLocation(page.getHtml().xpath("//dd[@class='job_request']/p/span[2]/text()").get()); job.setExperience(page.getHtml().xpath("//dd[@class='job_request']/p/span[3]/text()").get()); job.setEducation(page.getHtml().xpath("//dd[@class='job_request']/p/span[4]/text()").get()); job.setLabel(StringUtils.join(page.getHtml().xpath("//dd[@class='job_request']/ul/li/span/text()") .all(), ",")); //多个标签以逗号分隔 jobList.add(job); } page.putField("jobList", jobList); } @Override public Site getSite() { return site; } } ``` 4. 在main方法中,创建一个Spider对象,并设置需要爬取的初始链接、定义的PageProcessor对象和线程数等参数。例如,我们可以设置以下参数: ``` public static void main(String[] args) { Spider.create(new LaGouProcessor()) .addUrl("https://www.lagou.com/zhaopin/Java/?labelWords=label") .thread(5) .run(); } ``` 5. 运行程序,即可爬取拉勾招聘信息。可以通过page.putField方法将爬取到的数据存储到Map中,然后可以将Map写入文件或者数据库中。 ``` public static void main(String[] args) { Spider.create(new LaGouProcessor()) .addUrl("https://www.lagou.com/zhaopin/Java/?labelWords=label") .thread(5) .run(); } ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值