本文使用Python编写爬虫,通过向端口传送请求并且抓取传输过来的json字符串来获取招聘职位信息,并且分类保存为csv格式的表格文件。最后通过长时间的爬取,最终得到37.7MB的表格数据,共计314093个招聘信息。之后通过SPSS对数据进行预处理和统计,再进行深度数据分析。
【关键词】: 拉勾网 招聘信息 爬虫 数据挖掘 数据分析 Python SPSS
使用Python编写爬虫,通过向端口传送请求并且抓取传输过来的json字符串来获取招聘职位信息,
并且分类保存为csv格式的表格文件。最后通过长时间的爬取,最终得到37.7MB的表格数据,共计314093
个招聘信息。之后通过SPSS对数据进行预处理和统计,再进行深度数据分析。
./csvs --爬去的数据文件
./data --爬去的数据文件
./报告 --说明ppt和word(仔细阅读,写论文用)
./处理 --spss软件数据图表分析处理
./代码 --各分类py爬取代码和核心lago2.py代码(最终)