摘 要
随着社会经济的快速发展,人们的生活水平得到了显著提高,但随之而来的社会问题也越来越多。其中最为显著的就是就业问题。为此,招聘信息的展示也变得越来越为重要。但是在大量的招聘信息中,人们在提取自己最想要的信息时变得不那么容易,对于应聘者也是如此。本系统通过对网络爬虫的分析,研究智通人才网站数据,尝试使用Python技术进行开发,将智通人才网招聘信息尽可能的爬取出来,并对结果进行检测判断,最后可视化分析出来,为用户提供精确的查询结果。基于DJANGO框架的面向IT行业的求职推荐系统旨在提高数据挖掘的效率,便于科学的管理和分析招聘数据。
本文先分析基于DJANGO框架的面向IT行业的求职推荐系统的背景和意义;对常见的爬虫原理,获取策略,信息提取等技术进行分析;本系统使用python进行开发,MySQL数据库进行搭建,实现了招聘的数据爬取;对数据库的查询结果进行检测并可视化分析,对系统的前台界面进行管理,分析爬取的结果,并对招聘数据结果进行大屏显示;最后通过测试实现了数据爬取,存储过滤和数据可视化分析,以及系统管理等功能。
[关键词] 爬虫,python,大数据,关键字,招聘数据
With the rapid development of social economy, people's living standards have been significantly improved, but the following social problems are also increasing. Among them, the most prominent problem is employment. To this end, the display of recruitment information has become increasingly important. However, in a large number of recruitment information, it is not easy for people to extract the information they want most, and the same is true for applicants. Through the analysis of web crawlers, this system studies the data of Zhaopin recruitment website, tries to use Python technology for development, crawls out the recruitment information of Zhaopin recruitment website as much as possible, detects and judges the results, and finally analyzes them visually to provide users with accurate query results. The recruitment website information crawling and data analysis system based on Python aims to improve the efficiency of data mining and facilitate scientific management and analysis of recruitment data.
This paper first analyzes the background and significance of the information crawling and data analysis system of recruitment websites based on Python; Common crawler principles, acquisition strategies, information extraction and other technologies are analyzed; The system uses python for development and MySQL database for construction, which realizes the data crawling of recruitment; Detect and visually analyze the query results of the database, manage the foreground interface of the system, analyze the crawling results, and display the recruitment data results on a large screen; Finally, the functions of data crawling, storage filtering, data visualization analysis, and system management are realized through testing.
[keywords] crawler, python, Zhaopin.com, keywords, recruitment data
目 录
1 绪论
1.1 课题背景
互联网信息技术已经发展了很长时间,时至今日,越来越多的终端设备出现在人们的生活中,各种网络技术、移动终端日益成熟,而且价格越来越平民化。互联网技术已经到了前所未有的高度,借助于网络基础设施的建设,各种电子芯片和云计算快速的发展。传统信息的传播方式逐渐萎靡,比如报纸杂志等,几乎破产。目前人们只需要通过掌上电脑或者手机就可以查询到自己所需的信息,之所以网络设备如此受欢迎,是因为借助互联网技术所提供的强大信息呈现在网络中,只需要通过手指一点,就可以获取到自己想要知道的内容。用户只需要通过一个关键字,就可以从海量的信息中检索出相关的信息词条,然后将这些信息可视化呈现在用户面前,这种方式受到了用户的喜爱。
本课题所研究的基于DJANGO框架的面向IT行业的求职推荐系统也广泛存在于互联网中,通过智通人才网搜索引擎,我们可以获取到对应的招聘数据,然而这些方法大多比较零碎,没有进行专门的分类,甚至存在一些假冒的和带广告性质的宣传,严重影响了招聘数据的获取体验。
近年来,IT行业逐渐成为热门行业,IT行业是个大范围,这个行业实在太大,其中又有很多的分支领域。如何选择前景好的,适合自己的领域重点发展,这是必然之路。目前大多数招聘平台仅具有基础的招聘信息筛选功能,缺乏为求职者进行精准信息推荐功能,无法提供及时且高质量的招聘信息。
智通人才网目前是国内比较大的专业招聘平台,拥有大量的招聘信息和求职者。使用爬虫技术,对智通人才网招聘数据进行抓取,得到海量的信息,然后对数据进行处理和分析,最终将分析的招聘数据数据可视化展现出来,可以服务大众。因此,本选题将招聘数据信息的收集置于具体的智通人才网平台,从而进行研究招聘情况和岗位偏向。
1.2 课题意义
在目前信息化时代,数据的收集和整理是非常重要的工作。高效的收集可以提高相关工作人员的工作效率。计算机技术也逐渐向精细化方面发展,技术的更新影响了人们的生产生活方式,不同的技术平台也不断的更新着相关的信息。传统的信息采收集都是采取人工的方式,并对信息进行整理、修改、存储等,严重影响了信息制作的时间成本。另外,随着信息量的增加,工作人员整理起来更加的繁琐,而且容易出错,更无从谈起精确的归纳和统计,所以效率逐渐低下。在这些重复的工作中,只有通过信息化技术手段来进行管理,才能有效的提高信息的获取效率。
本基于DJANGO框架的面向IT行业的求职推荐系统中,通过相关的技术手段对招聘数据进行爬取,收集智通人才网中的招聘数据信息,并将这些数据存储到数据库中,在收集招聘数据时进行清洗、归纳和整理,形成了有条理的数据集合,可以有效的提高招聘数据数据的效率。借助数据库平台的优势可以对数据进行查询和统计,本系统旨在实现用户对招聘数据的获取,并可以通过可视化平台对数据进行展现,提供系统内的信息检索手段,可以更有效的查询用户需要的招聘数据,最终实现了招聘数据的有效挖掘,提高了数据爬取的准确率,实现了数据的统计查询功能,并对爬取的数据进行管理,提高了工作效率。
对于即将毕业找工作的应届生和社会择业人员来说,上网快速找到合适的工作,无疑是急需的。招聘网站数据可视化项目从繁杂的招聘信息中提取出潜在的、有价值的数据,并以图形的形式进行直观化展示,将用户从一堆杂乱无章的数据里面解放出来。通过该系统用户能够更加高效的理解和分析招聘数据信息,快速获取自身所需要的信息使得招聘信息能够更加明确、有效地进行传递。有利于用户明确学习方向,以及所需要掌握的工作技能和知识。
本题目来源于求职招聘研发项目的子项目,该项目主要完成一个招聘数据系统的设计和开发,该系统用于收集当前地方招聘数据,然后通过爬取、清理、存储、统计招聘数据,并进行招聘数据,是现代化招聘系统不可缺少的部分,为具体岗位的需求发展趋势提供便捷的推荐模式。
大数据技术是获取数据价值极为重要的途径,而招聘大数据能让应聘者更直观地了解人才市场需求。本文提出一种基于大数据技术的招聘服务平台,通过数据可视化对招聘单位的人才需求信息通过图表展示,旨在为广大在求职者特别是初出校园的毕业生进行智能就业推荐服务。
1.3 研究内容
在技术上,本文利用Python技术进行数据爬取,这种简洁快速,类库丰富的编程语言可以轻松的实现爬虫方法。先分析目标网站的网页信息,然后进行数据处理,完成抓取后进行数据存储,最后完成数据的可视化呈现。数据存储使用的是MySQL数据库,这种数据库轻巧而功能强大,可以有效的满足系统的开发。
在业务上,本系统利用用户无法在海量的智通人才网中查找到有效的招聘数据,因此设计了本系统对招聘数据进行存储,然后整理招聘数据,并通过可视化的方式展现出来。在后台也可以对这些招聘数据进行整理,为用户提供更加精确的招聘数据信息。
本文根据软件开发的思路,共设计了六个章节。
第一章绪论,介绍基于DJANGO框架的面向IT行业的求职推荐系统的背景意义,分析爬虫相关的技术和目前发展的趋势。
第二章对系统的技术进行分析,包括Python技术、爬虫技术和数据库技术等。
第三章对系统进行需求分析,分析系统具有的功能需求。
第四章系统设计,通过设计爬虫和系统功能以及数据库来完成系统开发的设计阶段。
第五章系统实现,通过系统实现的功能模块,分步骤的介绍实现过程和相关的代码。
第六章系统测试,通过测试过程来介绍系统所达到的功能以及可以实现的目的。
最后进行总结、开发。总结开发过程并提出对应的展望,为未来的发展做出方向指引。
4.2 系统功能设计
4.2.1数据采集功能设计
在数据采集中,通过python进行爬虫设计,完成招聘数据的采集处理。数据采集主要包括了分析目标网站、目标网站的数据爬取、数据清洗处理、数据存储。其中,数据采集阶段的功能模块如图4.2所示。
图4.2 数据采集功能模块图
本系统使用智通人才网作为目标网站,先分析该网站的结构,然后对网页的数据进行爬取,在爬取过程中会遇到一些重复的招聘数据,需要对数据进行清洗,通过数据处理获取到相对完整的招聘数据,并把处理后的数据存储在对象中,通过循环对象来构造数据存储的插入语句,再进行数据存储,将数据保存在MySQL数据库中。