招聘网站职位分析数据可视化系统(Hadoop课设）

最新推荐文章于 2024-08-21 09:59:24 发布

黄沙在努力

最新推荐文章于 2024-08-21 09:59:24 发布

阅读量5.3k

点赞数 1

分类专栏： Hadoop 大数据 Linux 文章标签： hadoop python eclipse

本文链接：https://blog.csdn.net/qq_57410114/article/details/121662926

版权

本文介绍了如何使用Hadoop进行招聘网站职位数据的爬取、上传、分析和可视化。首先通过Python的bs4爬取51招聘的职位信息，然后利用WinSCP和hadoop命令将数据上传到Hadoop集群。接着在Eclipse中编写MapReduce程序，进行数据去重和薪资平均值计算。最后，讨论了数据可视化的可能性，如柱状图和词云图。

摘要由CSDN通过智能技术生成

一：爬取数据

二：上传数据

三：数据分析

四：数据可视化

第一部分：数据的爬取

UP主利用bs4爬取的51招聘的招聘信息。

for i in os.listdir(a):
        if len(os.listdir(a)) != 0:
            path = os.path.join(a, i)
            path = path.split('\\')[-1]
            os.remove('D:\Dedup\input\\' + path)

这一段代码判断文件夹里有没有已经爬取的文件，如果有就把文件删除。

def job(gw):
    for i in range(20):
        url='https://search.chinahr.com/bj/job/pn'+str(i+1)+'/?key='+gw
        headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'}
        response=requests.get(url,headers=headers)
        response=response.content.decode('utf-8')
        soup=BeautifulSoup(response,'lxml')
        result=soup.select('div[class="job