- 博客(7)
- 收藏
- 关注
原创 python建立字典索引
建立索引以四字成语为例w=abcdw=abcdw=abcd, {a、b、c、da、b、c、da、b、c、d}分别代表成语中的四个字,分别以成语的四个字建立索引,具体操作如下 <1>遍历成语字典,找出所有成语的第一个字,将其作为字典里的索引a={a1a2...an}a={a1a2...an}a=\lbrace a_{1}a_{2}...a_{n} \rbrace,并找出以索引的开头...
2018-06-07 18:57:06 8112
原创 python怎样去除字符串中的某些字符
1、用while循环,检查是否存在空字符,如果存在用remove移除:while '' in f: f.remove('')print(f)注意:不能写成这样的for循环,这样会造成有的空字符不能去掉for i in f: if i=='': f.remove(i)例:f=['','我',‘知道’,‘’,‘’,‘’,‘你’]结果为:['我',‘知道’,‘’,‘你’]2、...
2018-06-07 16:22:50 5812 1
原创 Python汉字转拼音-拼音转汉字的效率测评
1、汉字转拼音(1) 汉字转拼音使用的是pypinyin包,将包导入到python中,调用即可使用import pypinyinfrom pypinyin import pinyin, lazy_pinyins1=print(lazy_pinyin('需要转换成拼音的汉字'))(2)读取一个以处理好的部分文本(一段话或者一篇文章以逗号隔开)文档如下:将这个文本循环读入并把汉字转换成拼音,整体如
2018-04-08 15:26:20 2576
原创 初学全文检索技术-倒排文件
倒排文件索引技术1、什么是倒排文件在搜索引擎收集完数据的预处理阶段,搜索引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排文件”。倒排文件简单一点可以定义为“用文档的关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键词,书的页面是索引目标)2、倒排文件分类(1)文档级倒排文件 文档级倒排文件,索引分为两类: 第一部分词表:包含词x的文档数量和指向
2018-03-29 15:13:13 1694
翻译 Python拼音转汉字
拼音转汉字首先导入拼音转汉字的包pinyin_2_hanzi,测试程序如下: def pinyin_2_hanzi(pinyinList): from Pinyin2Hanzi import DefaultDagParams from Pinyin2Hanzi import dag dagParams = DefaultDagParams() result = dag
2018-03-21 21:26:14 5807 1
原创 Python 随机数的产生
Python 随机数的产生Random生成随机数有以下几种函数:(1)random.random:用于生成0~1的随机浮点数; (2)random.uniform(a,b):用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限; (3)random.randint(a, b):生成指定范围内的整数; (4)random.randrange(a,b,c):a,b为范围,c
2018-03-21 21:03:11 4156
原创 java如何截取文本中的字符并存入数据库
以现代汉语词典为例,将字典里的词和词的意思放入数据库,以下是txt现代汉语词典的部分截取图(1)主要用到的是split方法,和substring(i) stringObject.split( separator , limit ),stringObject被分解的对象,separator字符串或正则表达式对象,即在分割时使用的标识符,由以上文本可知为“】", limit用来限制返回数组中的元素个数...
2018-03-10 14:29:59 2314 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人