python 把一个文本文件中的语句分词，并去重，然后写入一个CSV文件后，你可以排序

最新推荐文章于 2024-05-09 09:59:19 发布

unikran2018

最新推荐文章于 2024-05-09 09:59:19 发布

阅读量2.3k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/unikran2018/article/details/79395633

版权

python 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

#-*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("gbk")

#import time
import os,sys,re

import numpy as np

#from math import isnan

import pandas as pd

import jieba
import jieba.analyse

#import xlrd
#import xlwt

import codecs

#不要选择太普通的词，否则文件太大。

#jieba 所有词
#带分页的文章
#strzk3="""网络的资源占用情况"""
#listzk1=list(jieba.cut(strzk3))

##读取文本文件内容到内存
file = codecs.open("频率重耕.txt", 'r')
content = file.read()
file.close()
segments = []
##对内存中的字符串进行分词
listzk1 = list(jieba.cut(content))
##取中英文字符超过2个的词存入数组segments
#for seg in segs:
#    if len(seg) > 1:
#        segments.append(seg)

listzk = []
the_set = set()
for level in listzk1:
    if level not in the_set:
        the_set.add(level)
        listzk.append(level)

df = pd.DataFrame(listzk,columns=['word'])

df2=df.sort_values(by=['word'],ascending=False) #这个排序结果不是按照中文拼音排序的

df2.to_csv('test.csv', sep=',',header=False,index=False) #打开文件后，再按中文拼音排序

unikran2018

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
python 把一个文本文件中的语句分词，并去重，然后写入一个CSV文件后，你可以排序

#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")#import timeimport os,sys,reimport numpy as np #from math import isnanimport pandas as pd import jiebaimport jieba.analyse#import...
复制链接

扫一扫