#-*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("gbk")
#import time
import os,sys,re
import numpy as np
#from math import isnan
import pandas as pd
import jieba
import jieba.analyse
#import xlrd
#import xlwt
import codecs
#不要选择太普通的词, 否则文件太大。
#jieba 所有词
#带分页的文章
#strzk3="""网络的资源占用情况"""
#listzk1=list(jieba.cut(strzk3))
##读取文本文件内容到内存
file = codecs.open("频率重耕.txt", 'r')
content = file.read()
file.close()
segments = []
##对内存中的字符串进行分词
listzk1 = list(jieba.cut(content))
##取中英文字符超过2个的词存入数组segments
#for seg in segs:
# if len(seg) > 1:
# segments.append(seg)
listzk = []
the_set = set()
for level in listzk1:
if level not in the_set:
the_set.add(level)
listzk.append(level)
df = pd.DataFrame(listzk,columns=['word'])
df2=df.sort_values(by=['word'],ascending=False) #这个排序结果不是按照中文拼音排序的
df2.to_csv('test.csv', sep=',',header=False,index=False) #打开文件后,再按中文拼音排序
import sys
reload(sys)
sys.setdefaultencoding("gbk")
#import time
import os,sys,re
import numpy as np
#from math import isnan
import pandas as pd
import jieba
import jieba.analyse
#import xlrd
#import xlwt
import codecs
#不要选择太普通的词, 否则文件太大。
#jieba 所有词
#带分页的文章
#strzk3="""网络的资源占用情况"""
#listzk1=list(jieba.cut(strzk3))
##读取文本文件内容到内存
file = codecs.open("频率重耕.txt", 'r')
content = file.read()
file.close()
segments = []
##对内存中的字符串进行分词
listzk1 = list(jieba.cut(content))
##取中英文字符超过2个的词存入数组segments
#for seg in segs:
# if len(seg) > 1:
# segments.append(seg)
listzk = []
the_set = set()
for level in listzk1:
if level not in the_set:
the_set.add(level)
listzk.append(level)
df = pd.DataFrame(listzk,columns=['word'])
df2=df.sort_values(by=['word'],ascending=False) #这个排序结果不是按照中文拼音排序的
df2.to_csv('test.csv', sep=',',header=False,index=False) #打开文件后,再按中文拼音排序