当进行语义分析的时候,第一步需要做的事,就是把一段句子分成若干个 token
,这个步骤叫 tokenization
。但其实初步或者说最基础的 tokenziation
是把一段句子的每个单词抽取出来,作为一个字符串,然后作为参数传入相应的 NLP
库的方法中。这个步骤会使用到 Python 的 join
方法,今天我们来介绍一下 join
方法的使用。
语法
''.join(sequence)
其中 sequence 是可以 iterable 的数据,比如list,join
之前的是分隔符,比如想要 list 中的所有数据按照空格串联起来,就可以这么写 ' '.join(list)
,这里要添加一个空格。
举个例子,已经对一句话进行了 tokenization
,拆分成一个list,其中包含了每个单词,想把这些 token 连接起字符串,就可以这么写 ' '.join(['hello', ''world])
,然后返回的 copy 就可以作为参数传入 NLP 的方法中进行 word_tokenzie
。
再比如,想通过,
连接起这些字符串,就可以把逗号替换成空格, '.'.join(list<str>)
。
总结
''.join(iterable)
在 Python 中是一个非常实用的方法,尤其是在 concatenation
。