使用Spark分析拉勾网招聘信息(一):准备工作

原创 2016年08月31日 09:44:48

本系列专属github地址:https://github.com/ios122/spark_lagou

前言

我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说,如果心里想表达想分享的,就适当规划组织下,使其相对自成体系,以便于感兴趣但可能刚好某个领域还不是很熟的人,也能很好地入手.系列文章,我会努力避免过于主观化的描述,同时吸取以往的经验,尽量给每个系列的文章都设置一个单独的 github 项目,供查阅参考.

Spark 系列文章规划

Spark系列,因为本人并非供职于大型数据公司,也未曾在较大数据集上实践过,所以内容可能仅供初级入门者参考.目前,我处理过的较大的数据集,也仅在百万条左右,但是也不得不惊叹 Spark 做为数据分析工具的便利性,100w条数据,在3台BMR服务器结点上,复杂查询一般在十秒以内.从数据分析的工具角度,我觉得 Spark 还是有必要了解的,大多数时候,基于数据的多个维度分析出的结论,可能比某些抽象的统计数据,能有说服力.

数据源: 拉勾网 iOS 职位最近一个月的公开招聘信息

以拉勾网 iOS 职位最近一个月的公开招聘信息作为样本.这是一个样本,到时我会具体说一下数据获取的方法和思路,还会奉上可用的脚本.

数据分析工具:Spark.

Spark是主要分析工具.我前一段时间,看了那本<

数据分析平台: 百度BMR

我会直接基于百度BMR来分析数据.至今,我没有试过自己搭建spark开发环境,也暂无打算研究.因为我觉得,大数据的分析,硬件还是挺贵的,好在现在有云平台,即开即用,用完释放掉即可.还有一个原因是,单机版的Spark和分布式的Spark,某些函数的行为还是有差异的.我看阿里云,也有类似的大数据分析平台,应该也是可以的.

准备事宜

实名认证的百度开发者账号,注册请到 https://login.bce.baidu.com 因为必须是实名认证的百度开发者账号,才可以创建 BMR 实例,没有账号,可能会影响到你观察文章的体验.因为这个实名认证要审核的,最好提前弄.

文章更新具体规划

使用Spark分析拉勾网招聘信息(一):准备工作

交代基本背景,动机与必要准别事宜等,为进一步文章铺垫.

使用Spark分析拉勾网招聘信息(二): 获取数据

使用脚本自动获取数据,会涉及数据源的分析,脚本编写思路,以及一个最终可用的脚本和实际采集的完整数据附件.

使用Spark分析拉勾网招聘信息(三): BMR 入门

主要讲解百度大数据平台BMR的基础操作与常用工具的使用.当然电脑性能较为强悍的童鞋,可以自己安装研究下Hadoop,Spark和Zeepline等工具.用BMR,比较省钱,按分钟计费,一小时 2块左右,我通常只是有感兴趣的数据题材时才开启.顺便插一句,以数据的视角,自由组合维度来观察某些自己关心的数据,真的看出来许多刷新自己认知的真实.不过,考虑到工具的可扩展性,我还是建议掌握下 BMR或者阿里的大数据平台的基础使用.

使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果

这里,会结合数据结构,展示下数据分析与提取的基本思路,然后会选几个角度分析下数据.方法是根本,简单了解下,再多看看 spark 和 scala 文档,我相信大家是可以自由使用Spark来分析自己感兴趣的数据的.


版权声明: iOS122 颜风 署名系列文章,每日 7:20 首发于微信公众号 iOS122gg,其他平台次日10点更新.除各大博客平台的iOS122官方专栏外,其他任何用途的转载与使用,请务必注明出处!

版权声明:本文为博主原创文章,未经博主允许不得转载。

【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息

使用Scrapy框架爬取拉勾网招聘信息 最近接触了Scrapy爬虫框架,简单写了个爬虫爬取拉钩网的招聘信息,加深对Scrapy框架的理解,不得不说Scrapy框架其实还是蛮方便的,就像爬虫流水线...
  • Hemk340200600
  • Hemk340200600
  • 2017年09月02日 19:57
  • 915

拉勾网招聘数据分析

对拉勾网数据挖掘岗位的分析背景大数据概念越来越火爆,很多学生开始学习大数据,社会人士也蠢蠢欲动准备转行,对这个新兴职业充满期待。在感性背后,我们来理性看待下目前的数据挖掘岗位需求,如果您确定要进入数据...
  • u010560831
  • u010560831
  • 2016年11月06日 15:58
  • 1735

用Python爬取拉钩网招聘职位信息

本文实现自动爬取拉钩网招聘信息,并将信息保存在本地文本中
  • d1240673769
  • d1240673769
  • 2017年07月15日 18:42
  • 657

Java爬虫拉勾网招聘信息生成Excel表格

项目地址 https://github.com/ishare20/JobInformation思路: - 明确需要爬取的信息 - 分析网页结构 - 分析爬取流程 - 优化明确需要爬取的信息职...
  • lwhlwh2012
  • lwhlwh2012
  • 2017年06月16日 21:10
  • 480

爬取拉勾网招聘信息并使用xlwt存入Excel

写作不易,转载请注明出处,且用且珍惜。 xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 文档pdf下载 python操作excel之xlrd 1.Python模块介绍 - xlwt...
  • m0_38052500
  • m0_38052500
  • 2017年10月20日 21:00
  • 991

Scrapy爬取拉勾网职位信息

很多网站都用了一种叫做Ajax(异步加载)的技术,通常我们会发现这种网页,打开了,先给你看上面一部分东西,然后剩下的东西再慢慢加载,也就是局部加载。所以你可以看到很多网页,浏览器中的网址没变,但是数据...
  • zxc123e
  • zxc123e
  • 2017年06月09日 16:32
  • 1097

Python爬取拉勾网招聘信息

此代码运行建议Python3,省却中文编码的麻烦 遇到的几个问题: (1)拉钩网的数据是通过js的ajax动态生成,所以不能直接爬取,而是通过post’http://www.lagou.com/j...
  • yz764127031
  • yz764127031
  • 2017年05月29日 23:01
  • 844

使用Jsoup采集拉勾网招聘信息

使用Jsoup多线程采集拉勾网招聘信息,并将数据解析后保存在csv文件中。
  • baalhuo
  • baalhuo
  • 2016年09月12日 11:02
  • 1275

scrapy爬取拉勾网

2. 初始化拉钩网项目并解读crawl源码 scrapy genspider --list  查看可使用的初始化模板  ailable templates:  - basic  - crawl  -...
  • y191114690
  • y191114690
  • 2017年07月29日 21:59
  • 691

[jjzhu学python]之使用python抓取拉勾网职位信息并做简单统计分析

自写的python爬虫,简单的实现了抓取拉勾网的一些职位信息,简单运用了多线程,后期再多这些信息进行统计,做点简单的分析,...
  • jjzhu_zju
  • jjzhu_zju
  • 2016年04月10日 15:43
  • 3872
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:使用Spark分析拉勾网招聘信息(一):准备工作
举报原因:
原因补充:

(最多只允许输入30个字)