embedding size对训练结果影响较大,嵌入层越大,准确率越高
自己改进的代码和范本代码似乎总有差异,还需要细查。
本例只有一个字典,即context_vocab,意味着训练样本和目标共享一个字典,而前三个案例针对样本和目标分别建立了字典。
在Dataset初始化时,有两行新代码值得注意,它巧妙的利用了匿名函数lambda和映射函数map来求出语料中语句的最长长度。
# Very smart. Use map func to measure the length of every sentence
# in the dataframe table. Then use max to return the max one.
measure_len = lambda context: len(context.split(" "))
self._max_seq_length=max(map(measure_len,cbow_df.context))