Python学习——jieba分词库和time模块

项目需要用到分词,所以找了一天合适的分词库,网上推荐最多的是jieba分词,在linux环境下安装很方便,输入命令:

pip install jieba 

即可。使用更为方便:

import jieba

data=“这是一个让人增长见识的项目”

seg_list=jieba.cut(data,cut_all=False)   #目前我只需要使用这个精确模式,还有其他可选模式,可以参考http://www.oschina.net/p/jieba

print '/'.join(seg_list)

结果是:这是/一个/让/人/增长/见识/的/项目


我用Python自带的time模块,统计了一下cut这一句命令运行的时间,数量级是微秒。

还有其他的分词库,我目前用不到,以后应该会需要进行比较。

上边已经提到了time模块,我主要对time.time()、time.clock()、timeit做比较

time.time():返回当前的时间戳。所以用来计算运行时间的话只要把前后时间戳相减即可

time.clock():注意,在不同的系统上含义不同。在UNIX系统上,它返回的是“进程时间”,它是用秒表示的浮点数(时间戳)。而在WINDOWS中,第一次调用,返回的是进程运行的实际时间。而第二次之后的调用是自第一次调用以后到现在的运行时间。(实际上是以WIN32上QueryPerformanceCounter()为基础,它比毫秒表示更为精确)

1
2
3
4
5
6
>>> import time
>>> print ( time . time ( ) , time . clock ( ) )
1359147652.31 0.021184
>>> time . sleep ( 1 )
>>> print ( time . time ( ) , time . clock ( ) )
1359147653.31 0.02168

可以这样区分:
1
2
3
4
5
6
7
8
import sys
 
if sys . platform == 'win32' :
# On Windows, the best timer is time.clock
default_timer = time . clock
else :
# On most other platforms the best timer is time.time
default_timer = time . time

而ipython里的timeit也很好用,直接 %timeit a=a+1,即可计算a=a+1的运行时间
参考网站:http://www.runoob.com/python/att-time-time.html
http://pythoncentral.io/measure-time-in-python-time-time-vs-time-clock/

http://www.oschina.net/p/jieba

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值