- 博客(6)
- 收藏
- 关注
原创 打开文本是出现编码错误
是在编写中文的词频分析时遇到的先把词频分析的代码放上去# 对三国演义出场人物次数进行统计import jiebatxt = open("sanguoyanyi.txt","r",encoding="utf-8").read()words = jieba.lcut(txt)new={}#通过对程序的检查,对程序进行完善for word in words: if len(word)...
2018-06-13 17:28:44 2110
原创 jieba库以及文本词频统计
简介◆ jieba库是优秀的中文分词第三方库◆ jieba库和其他的第三方库一样,在cmd中使用pip install jieba 就可以进行安装◆ jieba最常用的函数只有一个,在下面我们会见到jieba库的三种模式及其函数◆ 精确模式:jieba.lcut(s) 对文本s进行分词◆ 全局模式:jieba.lcut(s,cut_all=True) 进行分词之后存在冗余◆ 搜索引擎模式...
2018-06-13 17:03:54 6012 2
原创 字典类型数据
简介◆ 键值对:键是数据索引的扩展◆ 字典是键值对的集合,键值对之间无序◆ 采用大括号{}和dict()创建,键值对用冒号:表示◆ 理解映射的概念,映射是一种键和值得对应关系字典类型数据的基本函数◆ del d[k] 删除字典d键k所对应的数据值◆ k in d 判断k是否是字典d的键◆ d.keys() 返回字典...
2018-06-13 10:07:12 3040
原创 序列数据类型
简介◆ 序列是一维元素向量,元素类型可以不同◆ 类似数学上的序列◆ 元素间由序号引导,通过下标访问序列的特定元素◆ 主要类型包括:字符串类型、元祖类型、列表类型通用的操作符◆ s + t 连接两个序列s和t◆ s*n或n*s 将序列s复制n次◆ s[i] 索引序列s中的i元素◆ s[i:j:k] 索引序列s中从i到j,...
2018-06-11 11:29:45 4986
原创 D&C与快速排序
D&C简介D&C的意思是分而治之,它是一种著名的递归式问题解决方法。使用D&C来解决问题的过程包括两个步骤:(1) 找出基线条件,这种条件必须尽可能简单(2) 不断将问题分解(或者说缩小规模),直到符合基线条件例子求列表[2,4,6]的和(1) 找出基线条件。列表中不包含元素(2) 缩小问题规模。将求列表[2,4,6]的和转化为任意取出一个元素[2]与剩余列表[4,6]的和...
2018-06-06 16:19:23 488
原创 集合数据类型
简介• 集合用大括号{}表示,元素间用逗号分隔• 建立集合类型用{}或者set(),建立空集合类型,必须用set()• 集合中每个元素必须唯一,不存在相同元素• 集合中的元素之间无序主要的操作符和函数操作符• A|B A和B中的所有的元素 • A-B 包含A但是不包含B的元素 • A&B 同时属于A和B的元素• A^B 包含...
2018-06-06 10:57:50 1793
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人