智联招聘python岗位_智联招聘的python岗位数据结巴分词(一)

本文介绍如何利用Python结合jieba库对智联招聘的Python岗位工作要求进行分词处理。通过读取CSV文件,提取工作描述,进行分词并去除停用词,最终将结果保存到out.txt文件中。
摘要由CSDN通过智能技术生成

如何获取数据点击这里

下载之后的文件名为:all_results.csv

数据样式大概这样。然后下面我分析的是工作要求  也就是那边的绿框那一列。

587c633382bfe8dc79dfc6831c5c720d.png

import csv

import os

import jieba

import jieba.posseg as psg #posseg模块可以获取词性

datapath=os.path.join(os.getcwd(),"all_results.csv")

with open(datapath,'r',newline='',encoding='utf-8') as csvfile:

# rows=csv.reader(csvfile)

# headers = next(rows)

# for i ,row in enumerate(rows):

# if i%50==0:

# print("正在处理第{}行数据".format(i))

# job_required=row[8]

# job_requirednew=job_required.strip().replace(" ","")

# result_list.append(job_requirednew)

rows=csv.DictReader(csvfile)

result_list=[row['job_description'].strip().replace('\xa0','').replace('\r\n','') for row in rows]

info_attr = [(x.word,x.flag) for x in psg.cut(''.join(result_list)) if len(x.word) >= 2] # 这里的x.word为词本身,x.flag为词性

with open('out.txt','w+') as f:

for x in info_attr:

f.write('{0}\t{1}\n'.format(x[0],x[1]))

运行完上面的程序得到的文件结构如下

fbf2f85fc9be3eb11a40c619b8e43ce8.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值