原理篇:https://blog.csdn.net/weixin_41089007/article/details/106604465
前段时间写了一篇关于几种改进的embedding算法的代码,这几天尝试实现了一下,但是不知道为什么效果都比gensim自带的word2vec差,原因可能是自己写的CBOW模型出了问题,也有可能是那几个方法复现错了,但是不管怎么说还是记录一下吧!
代码地址
https://github.com/ZJUhjx/NewEmbeddings
关键代码
TF-CR Word Embedding
首先生成单词-权重对应表
def genWordWeight(dataSource, stopWordDict):
data = pd.read_csv(dataSource)
positive = data[data['sentiment'] == 'positive']
negative = data[data['sentiment'] == 'negative']
review_pos = positive['review'].tolist()
review_pos = [review.strip().split() for review in review_pos]
review_pos = [word for review in review_pos for w