1.正则表达式
regex = re.compile(ur"[^\u4e00-\u9f5aa-zA-Z0-9]")
s=u'hello我是,,,中国人'
s = regex.sub('', s)
- map
map(function, sequence[, sequence, …]) -> list:将序列通过function进行映射,将映射结果组合成序列
def etl(s):
s = regex.sub('', s)
return s
map(etl,jieba.cut(str_line, cut_all=False))
- filter
filter(function or None, sequence) -> list, tuple, or string: 将序列通过function进行过滤,结果包含函数返回为true的元素
filter(lambda x: len(x) > 0, map(etl, jieba.cut(data, cut_all=False)))
#在分词结果中的无用字符替换成指定字符,并过滤掉指定字符
- reduce
reduce( func, seq[, init] ):每次迭代,将上一次的迭代结果(第一次时为init的元素,如没有init则为seq的第一个元素)与下一个元素一同执行一个二元的func函数。在reduce函数中,init是可选的,如果使用,则作为第一次迭代的第一个元素使用。
print reduce(lambda x, y: x * y, range(1, n + 1))