小项目-数据处理篇：pandas进行工作相关数据清洗

最新推荐文章于 2024-08-18 09:00:00 发布

泛泛之素

最新推荐文章于 2024-08-18 09:00:00 发布

阅读量4.3k

点赞数

分类专栏： pandas 小项目文章标签： pandas 数据 python 数据挖掘数据清洗

本文链接：https://blog.csdn.net/tonydz0523/article/details/78944699

版权

本文通过pandas进行数据清洗，包括去除重复的工作地址和公司，筛选合适的工作（排除非Python职位），处理异常值，以及根据工作、公司、职位要求等进行评分，以找到匹配的工作。使用高德API获取地址坐标，天眼查API获取公司信息，并进行数据整合。

摘要由CSDN通过智能技术生成

先看看我们今天要处理的数据，爬取的成果：
这里写图片描述
工作信息7000多条

租房信息差不多6w条
本章任务：
1、去重工作地址，获取地址坐标（高德）
2、去重公司，获取公司情况
3、工作筛选，由于智联上爬取的工作，好多事工作内容里有python，只用python谢谢脚本啥的，实际标题上找的是java啊，php啊，这样的工作要删掉
4、剔除数据异常值，过大过小，NA值
5、工作根据，工作，公司情况，工作内容，技能要求等进行评分，目的是找到适合我的工作

开整：
先导入数据看一下

import pandas as pd
import numpy as np
import pymongo
client = pymongo.MongoClient("mongodb://XX:XXXXX@192.168.3.7:2018",connect=False)
db = client["test"]
table = db["python"]
df = pd.DataFrame(list(table.find()))
del df["_id"]
df.head()

这样事儿的：
这里写图片描述

根据工作名称剔除掉不适合我的工作：带java，php，web，C，C++这种

name_ban = ["linux","php","Linux","PHP","JAVA","java","Java","DBA","运维","web","WEB","实习生","C","C++","培训","R","Golang"]

差不多这些吧，应用apply 把标题中含有这些的换成na ,然后drop

def ban_name(job_name):
    name_ban = ["linux","php","Linux","PHP","JAVA","java","Java","DBA","运维","web","WEB","实习生","C","C++","培训","R","Golang"]
    if any(x in job_name for x in ["python","Python"]):
        pass
    else:
        if any(x in job_name for x in name_ban):
            job_name = np.nan
    return job_name

df["job_name"] = df["job_name&