02结巴分词和打标任务代码设计

本文介绍了如何运用Python进行结巴分词,详细解析了分词过程,包括读取数据、添加用户词典和词性分析。同时,文章探讨了打标任务的设计思路,提供了一个将机械化操作代码化的学习案例。
摘要由CSDN通过智能技术生成

前言

1)处理的数据越大,对性能的要求越高,我们需要逐步学习python代码编写的性能方面的知识
2)学习程序设计,可以将一些机械化的人工操作让代码代劳

python知识补充

1、时间

查看当前时间:datetime.datetime.now()
import datetime
#查看当前时间
now_time = datetime.datetime.now()
print(now_time)
#打印结果:datetime.datetime(2018, 12, 14, 19, 13, 43, 350362)
datetime.datetime(2018, 12, 14, 19, 13, 43, 350362)
#查看当前时间的点数
now_time.hour
19
#查看当前时间的分钟数
now_time.minute
13
#查看当前时间的秒数
now_time.second
#查看当前时间
end_time=datetime.datetime.now()
end_time
datetime.datetime(2018, 12, 14, 19, 16, 12, 393820)
#查看两时间之差
end_time-now_time
datetime.timedelta(0, 149, 43458)
#两时间间隔秒数
(end_time-now_time).seconds
149
#两时间间隔天数
(end_time-now_time).days
0

2、生成器和可迭代

1)在Python中,这种一边循环一边计算的机制,称为生成器:generator
2) 凡是可作用于for循环的对象都是Iterable类型  
3)迭代器:可以被next()函数调用并不断返回下一个值的对象称为迭代器:Iterator
4)生成器都是Iterator对象,但list、dict、str虽然是Iterable(可迭代对象),却不是Iterator(迭代器)

参考资料

L = [x * x for x in range(10)] #可迭代
L
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
g = (x * x for x in range(10)) #生成器
g
<generator object <genexpr> at 0x00000227F256EF10>
next(g)
0
for i in g:
    print(i)
1
4
9
16
25
36
49
64
81

3、将序列中的元素以指定的字符连接生成一个新的字符串

使用S.join(iterable)方法
help(str.join)
Help on method_descriptor:

join(...)
    S.join(iterable) -> str
    
    Return a string which is the concatenation of the strings in the
    iterable.  The separator between elements is S.
list1=['我','爱','觅游']
#将分好的词用空白格连接成一个字符串
' '.join(list1)
'我 爱 觅游'

为什么要学S.join(iterable)

1)方便存储分词结果
2)方便可迭代类型存储  
3)适应一些包的使用,因为是外国人根据英语的习惯编写的,比如'I love MeU'
#文件路径
filename='e:/aa.txt'  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值