python 把一个文本文件中的语句分词, 并去重,然后写入一个CSV文件后,你可以排序

#-*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("gbk")

#import time
import os,sys,re

import numpy as np

#from math import isnan

import pandas as pd
 

import jieba
import jieba.analyse

#import xlrd
#import xlwt


import codecs



#不要选择太普通的词, 否则文件太大。

#jieba 所有词
#带分页的文章
#strzk3="""网络的资源占用情况"""
#listzk1=list(jieba.cut(strzk3))


##读取文本文件内容到内存
file = codecs.open("频率重耕.txt", 'r')
content = file.read()
file.close()
segments = []
##对内存中的字符串进行分词
listzk1 = list(jieba.cut(content))
##取中英文字符超过2个的词存入数组segments
#for seg in segs:
#    if len(seg) > 1:
#        segments.append(seg)




listzk = []
the_set = set()
for level in listzk1:
    if level not in the_set:
        the_set.add(level)
        listzk.append(level)


df = pd.DataFrame(listzk,columns=['word'])

df2=df.sort_values(by=['word'],ascending=False)  #这个排序结果不是按照中文拼音排序的


df2.to_csv('test.csv',  sep=',',header=False,index=False)  #打开文件后,再按中文拼音排序
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值