使用jieba对csv招聘文件某一列数据进行分词

我们从搜狗细胞词库下载了计算机名词大全,从网上找到了哈工大,百度和四川大学停用词词库并进行了合并去重操作,得到了相对完整的中文停用词词库,将它们对jieba库进行对接,使用jieba对csv文件进行操作
技术细节
1、csv文件提取一列,转化为list进行分词
2、分词操作中,计算机名词大全让jieba不要把词分错,如“机器学习”不要分成“机器”“学习”,停用词库进行对比,将很明显不需要的词,特殊字符给删除
3、分词后得到list列表,将其替换到csv文件
4、保存为新文件

代码

"""
Created on Sat Dec 28 18:53:55 2019

@author: 姬大叔
"""

import os
import pandas as pd
import jieba

    
"""
csv文件读取一列,转为list
"""
def columnOflist(datas,cName):
    job_info=datas.loc[:,cName]
    job_info=job_info.tolist()
    return job_info
"""
对列表数据进行分词操作
返回一个分词后的list
"""
def stripWord(job_info):
    """
    停用词表
    """
    stop=open('停用词.txt','r',encoding='utf-8')
    stopWord=stop.read().split("\n")
    
    """
    调用新词库
    """
    print("正在分词。。。。。。。")
    jieba.load_userdict('计算机名词大全.txt')
    wordlists=[]
    for input in job_info:
        seg_list=jieba.cut(input,cut_all=False)
        #print('精确模式','/'.join(seg_list))
        wordlist=[]
        for key in seg_list:
            if not(key.strip() in stopWord) and (len(key.strip()) > 1) and not(key.strip() in wordlist) :
                wordlist.append(key)
        wordlists.append(wordlist)
    print("分词成功。。。。。。。")
    return wordlists
"""
将分词到的数据替换成原来杂乱的数据,保存到新表中
"""
def saveCsv(datas,cName,Keylists,file):
    print("正在替换。。。。。。")
    for i in range(len(Keylists)):
        var = ','.join(Keylists[i])
        datas.loc[i,cName]=var
    print("替换成功,正在保存文件。。。。。")
    datas.to_csv('自己路径'+file)
    print("保存成功")
    
path=' '      #源文件夹路径
files=os.listdir(path)                                  #文件名
cName='job_info'                                        #列名
for file in files:
    datas=pd.read_csv(path+file)
    inputlist=columnOflist(datas,cName)
    keylist=stripWord(inputlist)
    saveCsv(datas,cName,keylist,file)

分词效果还是很不错的在这里插入图片描述

  • 13
    点赞
  • 96
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
Cocos Creator是一个功能强大的游戏开发引擎,它允许开发者创建各种类型的游戏,包括街霸游戏。但是,Cocos Creator本身并不提供街霸游戏的源码,开发者需要自己设计和编写游戏的逻辑、界面以及各种游戏元素。 要创建一个街霸游戏,首先需要进行角色的设计和动画制作。可以使用Cocos Creator内置的动画编辑器来创建和编辑角色的动画效果。然后,开发者需要设计游戏场景,包括背景、道路、建筑等等,可以使用Cocos Creator提供的场景编辑器进行创建和布置。 在街霸游戏中,角色之间的战斗是重要的内容。为了实现战斗机制,需要编写适当的代码来实现攻击、防御、技能等动作的触发和效果。开发者可以使用Cocos Creator的脚本编辑器来编写游戏逻辑脚本,实现战斗机制,并确保游戏的平衡性和可玩性。 此外,街霸游戏还可能包括多人对战模式,可以使用Cocos Creator的网络模块来实现多人对战功能。开发者还可以使用音效编辑工具来添加游戏音效,以提升游戏的体验和乐趣。 总体来说,创建一款街霸游戏需要进行多个方面的设计和开发工作,包括角色设计、动画制作、场景布置、战斗机制实现、网络功能等等。Cocos Creator作为游戏开发引擎,为开发者提供了一系列强大的功能和工具,可以帮助开发者创建出高质量、富有创意的街霸游戏。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值