实践:jieba分词和pkuseg分词、去除停用词、加载预训练词向量

一:jieba分词和pkuseg分词

原代码文件
链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg
提取码:e4nv

目录:
在这里插入图片描述

1:分词介绍:

目标:中文句子中的词与词之间加上边界标记,本质是划分词的边界。

英文天然有空格作为分词符合。而对于中文如何让机器智能识别出单词词汇,是文本分析的第一步。

基本分词思想:(1) 由句子到词.(2) 由字到词

具体分词方法:

在这里插入图片描述

在这里插入图片描述

举例:

在这里插入图片描述

如何分词使得这个句子的共现概率最大

2:jieba中文分词

分词原理:HMM(隐马尔可夫模型)

(如何设置分词符号,使得句子的共线概率最大)

在这里插入图片描述

3:实践:分词


import jieba
import pkuseg

text = "绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。"
seg_list = jieba.cut(text,  cut_all=False, HMM=True)
print("jieba Cut result is: " + " ".join(seg_list))

seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut(text)  # 进行分词
print("pkuseg Cut result is: " + "/".join(text))
jieba Cut result is: 绿子 在 电话 的 另一头 久久 默然不语 , 如同 全世界 的 细雨 落 在 全世界 所有 的 草坪 上 一般 的 沉默 在 持续 。
pkuseg Cut result is: 绿子/在/电话/的/另/一头/久久/默然不语/,/如同/全世界/的/细雨/落/在/全世界/所有/的/草坪/上/一般/的/沉默/在/持续/。

二:去除停用词

1:实践:去除停用词

在使用使用jieba或pkuseg分词后,每一个句子被划分为一个个词。但是有些词是没有意义的(无法体现该段文本的

特征),如“在”,“的”,“一些”,标点符号等。因此我们需要去除这些词。这一步骤称为“去除停用词”。

如下是本次实验使用的停用词文件

在这里插入图片描述

#获取停用词集合
def get_stopwords():
    stopwords = pd.read_csv ("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\stopwords\\stopwords.txt", index_col=False, sep="\t", quoting=3, names=['stopword'],
                             encoding='utf-8')
    return  set(stopwords['stopword'].values.tolist())
   
def cutsentences(sentences):     #定义函数实现分词
    print('原句子为:'+ sentences)
    cutsentence = jieba.lcut(sentences.strip())     #精确模式
    print ('\n'+'分词后:'+ "/ ".join(cutsentence)) 
    stopwords = get_stopwords()     # 这里加载停用词的路径
    lastsentences = ''
    for word in cutsentence:     #for循环遍历分词后的每个词语
        if word not in stopwords:     #判断分词后的词语是否在停用词表内
            if word != '\t':
                lastsentences += word
                lastsentences += "/ "
    print('\n'+'去除停用词后:'+ lastsentences) 

sentence = '绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。'
cutsentences(sentence)

原句子为:绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。

分词后:绿子/ 在/ 电话/ 的/ 另一头/ 久久/ 默然不语/ ,/ 如同/ 全世界/ 的/ 细雨/ 落/ 在/ 全世界/ 所有/ 的/ 草坪/ 上/ 一般/ 的/ 沉默/ 在/ 持续/ 。

去除停用词后:绿子/ 电话/ 另一头/ 久久/ 默然不语/ 全世界/ 细雨/ 落/ 全世界/ 草坪/ 沉默/ 持续/ 

附:查看停用词文件

stopwords = get_stopwords()     # 这里加载停用词的路径
print(type(stopwords))
stopwords_=list(stopwords) #set是集合,无序,查看元素只能遍历所有打印出来,转为list.
print(stopwords_[1:20])
<class 'set'>
['个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年']
print(stopwords)
{nan, '个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年', '殆', 'thanks', '_', '傥然', '10', 'his', '-', '照着', '这些', '具体来说', '-[*]-', '|', '知道', '立刻', '恍然', 'usually', '借此', 'more', '不过', '这麽', '岂止', '=[', 'possible', 'off', 'probably', 'took', '一转眼', 'value', '致', '咱们', 'b]', '(', '!', '人', '除却', '允许', '100', '哼唷', '切勿', '咋', '见', '4', '89', '当前', '这么样', '左右', '庶乎', '接著', '第二大节', '结果', 'now', 'neither', '第五大道', '共同', '看起来', '⑧', 'says', '不拘', 'specify', '紧接着', '光', '我的', '冲', 'nor', 'on', '三番五次', '起见', '关于', '第二类', 'cannot', 'nine', '莫如', 'seemed', '奈', 'outside', '而又', '不会', '如若', '自从', '由于', '2016', 'twice', '有效', '91', '或许', 'hereafter', '93', '相等', '意思', '第五集', '53', '打', '争取', '当中', 'that', '」', '仅仅', '之前', "it'd", 'say', '@', 'seeming', '更有趣', '05', '取得', '除此以外', '吓', 'e]', '不一', 'once', '虽则', '向使', '来看', '敢情', '9', 'there', '其', '上午', '行动', 'seven', "you've", 'used', '下面', '大事', 'seeing', '很', '49', '暗地里', '从此以后', '也好', '尽管', 'indicated', '且说', '长此下去', '有一期', 'toward', '不曾', 'said', '70', '到处', 'per', '存心', '那末', '人人', '元/吨', 'indicates', '与其说', '勃然', '第二讲', '从此', 'believe', '吱', "there's", '当下', '赶早不赶晚', '平素', 'thereafter', '过来', 'go', '不问', '.一', '是否', 'our', '来不及', '秒', 'relatively', '哪边', '又笑', 'like', '要', 'far', 'seems', '往', '相当', '随后', '倒是', '反之亦然', '72', '倘', '看', '具有', 'follows', '一边', 'anybody', '如今', '第四者', '54', 'us', '②c', '第二盘', '可以', 'ones', '那么些', '适当', '怪', '有及', '一番', '奋勇', 'only', '是的', '来讲', '65', '新华社', '嗡嗡', '某', '别处', '≈', 'these', '极其', '处在', '和', '啪达', 'consequently', '仍然', '啊哟', '犹且', '极大', '绝顶', '第三件', '高兴', '遵照', 'into', '到头来', 'considering', '宁可', '简直', '长话短说', 'them', '正是', '我们', '上', '不但', '设使', '那时', '不限', '每每', '叫做', '如其', '几度', '自打', '总是', '不大', '之所以', '乌乎', '怎奈', '越是', 'specified', '大概', 'regards', 'four', 'becoming', '漫说', '不胜', '贼死', '尽如人意', '“', '别说', './', 'zt', '遵循', '以期', '大体', ';', '上去--', 'alone', '弗', 'towards', '。', '~+', '不惟', 'soon', '不下', '对', '〕〔', '谁知', 'co', '如是', '自后', '继后', '敢于', '非得', '第十六', 'below', '如常', '里面', '0', '便', '后面', '总之', '构成', '该', 'someone', '假若', 'ever', 'getting', '如果', '沙沙', '二', '余外', 'nd', '【', '偏偏', '常言说', '罢了', '41', 'ltd', '第五课', 'few', '依照', '′|', '42', '当然', '不止一次', '第二任', '及时', '冒', '替', '或则', '就是', '果真', '不仅...而且', '具体地说', '丰富', '而', '光是', 'seem', '时', 'have', 'hence', 'hereupon', '大张旗鼓', '起来', '因而', 'tries', 'nobody', '从来', '许多', '带', 'against', '使用', 'both', 'who', '3', 'away', '女子', 'contains', 'together', '+', '非但', '了', '说来', '92', 'available', '第三站', '就是了', '并没', '〕', '第五位', 'above', '差一点', '伙同', '既', '倘使', '/', '既往', '咱', '上下', '但凡', '乃至', '人们', 'merely', '即刻', '六', '等', '默默地', 'c]', '并', 'without', '86', '出', '而论', 'exactly', '反过来说', '>λ', '全力', '81', 'then', '按时', 'besides', 'was', 'about', '巴', '彼此', '联袂', '第十九', '嘿', 'old', '与否', '部分', '26', '并肩', '36', '三天两头', "didn't", '八成', '③', '按', '↑', '6', '77', "you'd", '22', '为主', '4', '当头', '还是', '单纯', '始而', '喏', '58', "doesn't", 'normally', '分期', 'across', 'know', "wasn't", '则', '44', '哉', 'any', "t's", '实现', 'everywhere', '不止', '他们', '必将', '诚如', '非特', 'sure', '47', '总的来说', '不特', '似的', '顺着', '一切', '一来', '顷刻', '呃', "we'd", '他是', '[]', '必须', '以至于', 'zero', '各人', '同时', "won't", 'saying', '正确', '亲自', '不怕', 'near', 'thanx', '非独', 'un', '第十次', '随着', '顷', 'does', '谁料', '〉', '6', '若夫', '四', '进行', "isn't", '最后一关', '替代', '宁肯', '应该', '达到', 'whatever', '[-', '[', '何苦', 'still', '已', '自己', '沿', '要是', '而已', '重新', 'my', '从今以后', '根本', '多少钱', '大面儿上', '叫', '防止', '谨', '从古至今', 'until', '以来', '掌握', '具体', '若是', 'six', '企图', '借以', 'qv', '鄙人', '43', '今後', '敢', 'be', 'described', 'very', '去', '看来', '而况', '难说', '每年', '3', '啷当', "c's", "we've", '不得不', 'gone', 'should', '得天独厚', '这样', '特别是', '表示', '即便', '如此等等', 'the', '种', '至于', '〔', '倘或', '第三单元', '兼之', 'ought', '第四张', '以及', '而是', '快', '2014', '猛然间', '二来', '一起', 'likely', '换言之', '待到', '第三句', ':', '全年', 'sub', '对于', '采取', '只有', '下去', '~', '别人', "weren't", '截至', '尽量', '呼哧', '于是乎', 'yourself', '挨家挨户', '活', 'hardly', '啐', '74', '〈', '′∈', '故此', '她', '满足', '全部', '52', '不定', 'later', '并非', '多么', '切切', '再说', '第二波', '了解', '所在', '除', 'whereas', 'hello', '然后', '按期', '第十集', '乃', '那麽', '有的', ']∧′=[', '有一部', '如前所述', '呀', '>', 'himself', '任何', '此外', '最近', '经常', '若果', '屡屡', '规定', 'further', '>>', '率尔', '忽然', '全体', '充分', '安全', 'might', 'nothing', '几时', 'being', '甚而', 'ok', '这儿', '开展', '什麽', '宁', '这种', '存在', '自身', '我', '不对', '~~~~', '别是', '随著', 'corresponding', '吧哒', '牢牢', '是什么', '第三期', '每', '一何', '85', '另行', '不但...而且', '唉', '以下', 'your', '精光', '即若', '极度', '第十一个', '已矣', 'everything', '1', 'little', '猛然', 'everyone', '共', '如何', '相信', '③]', '老大', 'oh', '难怪', 'downwards', '本身', '吧', '几乎', 'Ⅲ', '重要', '边', 'me', 'thoroughly', '较为', '=', '迟早', '多年来', '过于', '抑或', '彼时', 'rather', '任凭', '合理', '固然', '从优', '一.', '55', "we're", '相同', '趁势', '马上', '处理', '累次', '』', '不变', '可见', '当着', '甚或', '不择手段', 'associated', '看出', '极为', ']', '&', '鉴于', '9', '反之', '再则', 'behind', '特点', 'get', '怎样', '第十天', 'γ', '毫不', '尔等', '再有', '後来', 'did', '即如', '可能', 'anything', '敞开儿', '零', '最后一遍', '略微', 'ex', '|', 'theirs', '}', 'no', '它们', '*', '71', '组成', '非常', '?', '更有意义', '又又', '40', '──', '@', '末##末', '最后', '之一', '④', '基本', '最後', 'via', '岂', '·', 'somebody', '不光', 'within', '多数', '如上', 'just', 'perhaps', '不仅仅', '仍', 'which', '何止', '别', '这', '诚然', '遇到', '地', '间或', 'que', '能否', '分期分批', '那个', '成为', '趁', '14', '立', '现在', '切', '是以', 'vs', '有一根', 'entirely', '俺们', '正常', "who's", ':', '召开', '什么意思', '向', '有一百', '⑦', '难道说', '欤', '范围', '或多或少', '97', '75', 'beyond', '哪怕', '98', '呜', '恐怕', '受到', '风雨无阻', 'enough', '竟', 'ZT', '即或', "i'm", '确定', '老', 'ZXFITL', 'unfortunately', '第二首', 'least', '15', 'up', '其二', '莫不', '集中', '咳', '各个', '九', '大凡', '第三册', '连日', 'uses', '只消', '据悉', '最好', 'less', '喀', '不得已', 'most', 'some', '从古到今', '联系', 'since', '归根到底', 'going', '亦', '这般', '但', '并不', 'already', '更远的', '它', '尔后', 'ours', '将要', '认识', '否则', '据我所知', '明显', 'here', 'to', 'non', '千', '即将', '按照', 'somewhat', 'from', '川流不息', 'has', '不怎么', '乃至于', 'unlikely', '绝不', 'self', '能', '或曰', '有些', '自各儿', '全面', '广大', '接连不断', '们', '汝', 'anyone', "we'll", 'new', '出现', '其次', 'but', '×', '何妨', '再次', 'way', 'given', 'again', '诸如', '⑤', '后来', '上升', '差不多', '由此可见', '不同', '嘎', '全都', 'whom', '个', '日', '01', '大体上', "haven't", '第四代', '恰恰相反', 'do', '03', '27', '偶尔', '又一遍', '一片', '由此', '这就是说', '当', '有利', '之后', 'right', 'much', '挨个', '要么', 'wherein', '下来', 'В', '不已', '又', 'five', 'exp', '79', 'her', '十分', '得到', '权时', '看样子', '[', '进而', 'thereupon', '各级', '让', '好象', '上述', '臭', '有问题吗', '://', '如同', '由是', '为', '进入', '又喜欢', 'other', '将才', '倍加', '她是', '彼', '近几年来', '说明', "they'd", 'obviously', '第二十', '31', 'take', '从未', '唯有', 'during', '不得了', '更为', '亲口', '专门', "i'd", '当场', 'happens', '-β', '最后一科', '后', '如上所述', 'an', "you'll", 'please', '看见', '砰', '故意', '日见', '其余', '某些', '各', '譬喻', '人民', 'edu', '喽', 'secondly', 'mostly', '挨门挨户', 'useful', '分', '04', '乘胜', '所幸', '临到', '以至', 'gotten', 'themselves', "that's", 'indeed', '为止', '单单', '迫于', '从速', 'than', '总的说来', '充其极', 'kept', '接下来', '顶多', '随时', '第四版', '前面', '多年前', '尽心尽力', '而且', '那里', '二话不说', 'over', '几', '做到', '待', '蛮', '以上', '财新网', '莫若', 'also', '论', '正在', 'comes', 'cause', '其它', '不满', '基本上', 'com', '莫非', 'meanwhile', 'plus', 'tried', '出去', '此中', '但愿', '後面', 'must', "hadn't", '比', '毫无', '来说', '最后一页', '$', '真正', '定', '完全', '目前', 'such', 'before', '这么些', '局外', '交口', "it's", '有一堆', 'various', '正巧', 'whose', '记者', '心里', '固', '45', '有一群', '11', '起先', 'cant', '不是', '有一片', '因', '彻底', '诸', '似乎', '像', '普遍', '原来', '俺', '\\', '不论', '要求', '因着', '×××', 'ourselves', '较比', '好的', '后者', '/', 'tends', '{', '坚决', '℃', '从严', '结合', '你们', '哪', '概', '83', '几经', 'inasmuch', '略', '强烈', '多多', '怕', '八', 'because', '打从', 'each', 'at', '拿', '嘿嘿', '过', 'reasonably', '第十八', '当儿', '需要', '除外', '毋宁', '尽早', '首先', '59', '立地', '中间', '啊呀', 'thank', '然则', '连声', 'ie', '这点', '或是', '5', '⑨', '凭', '<φ', '显然', '哇', '第三卷', '这么点儿', '%', '缕缕', '那些', '屡次', '挨次', '强调', '加强', '附近', '32', '是不是', '!', '反之则', '0', 'anyway', '极', '有所', 'particular', '据称', '28', 'truly', "can't", '继之', 'inner', '那儿', '61', '亲手', '一直', '够瞧的', '方才', '适用', '那', '白', 'selves', '至', 'so', '凡是', 'certain', '等到', 'throughout', '比起', '总而言之', '的确', '同', '究竟', '却', 'let', '呆呆地', '皆可', 'whoever', '数/', 'need', '难道', '动不动', '任', '日益', '赶快', 'same', ';', '快要', 'maybe', '颇', '亲眼', '每天', 'really', '37', '嗬', '至若', '76', '以致', '甚至于', '由由', '87', '=(', '白白', '拦腰', 'keeps', '逢', 'best', '背地里', '前进', '更有效', '不妨', '为何', '可是', '→', '坚持', '转贴', 'course', 'moreover', 'actually', '第十名', '哪里', '不然', '主张', '竟而', 'one', 'although', '些', '归根结底', 'following', '不如', '有力', '另一方面', '最大', '据', '初', '{-', '每逢', '嘎登', '较', 'look', '跟', '不可抗拒', '格外', '第四单元', '’', "hasn't", '达旦', '应用', '直接', '啦', '也就是说', '当庭', '35', '以后', '出于', '有一方', '到', '从而', '绝', 'beforehand', '就地', "let's", '第三产业', '与此同时', '省得', '次第', '19', 'therein', '很多', '比方', '各式', 'theres', '使得', '一则通过', '第五卷', '累年', 'whenever', 'out', '就算', '趁早', '哦', '突出', 'well', '类如', '今', '<±', 're', '什么样', 'third', '更加', '多多少少', '动辄', '抽冷子', '少数', '2', 'inc', '切不可', '继而', 'accordingly', '嗡', '尽', 'what', '从无到有', '乘隙', '=-', '觉得', '他', '立马', '据实', '73', '将', '怪不得', 'gives', '乘', '到了儿', '简言之', '一时', '问题', '针对', 'appreciate', '各自', '既然', '[*]', '--', '深入', '腾', '归', '先後', '我是', 'even', '…………………………………………………③', '矣哉', '一下', '就是说', '必要', '第三类', '前此', '严格', '已经', '哈哈', '密切', '举行', '怎么办', '加入', "aren't", '不单', '向着', 'always', '2015', '以免', '啊', "they're", ' ]', '怎', '尽然', '认真', 'wish', '很少', "couldn't", '<Δ', 'except', '她们', '::', '第二把', '必然', '率然', '理该', '8', '不尽', '历', '较之', '莫', 'itself', 'immediate', '+ξ', '者', '隔日', 'by', '<λ', '从重', '本着', 'onto', 'had', "c'mon", '充其量', '岂非', 'certainly', 'hi', '每时每刻', '矣乎', '纯', '之', '常', '乘机', 'sent', '得出', '是', '各种', '往往', '其中', 'noone', '今后', '同一', '94', '个人', '39', '¥', 'under', '人家', '不外乎', '扑通', '战斗', 'able', '即令', '归齐', 'liked', '偶而', '将近', 'looks', 'came', '进去', '比及', '而后', '第四位', '直到', '穷年累月', '按说', '当时', '与', '说说', '33', '甫', '第十四', '二话没说', 'come', '除此', 'sup', '比如说', '要不然', '57', '按理', 'thence', '什么时候', '有问题么', 'f]', '尔尔', '以', 'hereby', 'necessary', '例如', '岂但', 'according', '如次', '即', '高低', '对方', '吗', '依靠', '-', '严重', '自个儿', '各地', '逐步', '考虑', '第二集', '有', '上面', 'sometimes', '怎麽', '大多数', '那么样', 'goes', '它是', '另方面', 'is', '不免', '绝对', '屡次三番', '顿时', '略加', '呢', '长期以来', '又一城', '必定', '不敢', '形成', '06', '嘛', '=″', '成年累月', '您们', '第三大', '尽可能', 'another', '设或', '连同', 'φ', '朝着', '犹自', 'latterly', '加以', '不足', 'or', '有效地', '老老实实', 'welcome', "wouldn't", '大抵', '表明', '90', '甚么', '第二关', '距', '大都', '78', '有点', '正值', 'she', '今天', '哪个', '不够', 'currently', ',', '此', '多', 'yet', '近来', '24', '默然', '突然', 'hers', '同样', "a's", '.', '&', '每个', '窃', 'am', '大', 'else', 'with', '话说', '最', '自', '遭到', '也', '或', 'taken', '0:2', '相对', '召唤', '12', '第二项', '另一个', '50', '才', '尽心竭力', '纵', '⑩', '一样', '相似', 'known', 'thats', 'definitely', '不', ',', '扩大', '介于', '第五部', 'a]', '的士高', '反而', '13', 'awfully', '另外', '及至', '++', '不仅仅是', '要不', '便于', '谁人', '她的', ')', '主要', '趁机', '63', '20', '38', '《', 'former', 'φ.', '且', '总的来看', '都', '它们的', '在', '而言', '略为', '注意', 'trying', '第二声', '来', '论说', 'eg', 'different', 'mainly', '第四集', '多亏', '最后一派', '▲', 'whither', '恰逢', 'having', '限制', '来得及', '积极', 'tell', 'ZZ', '此间', '容易', '倘若', '呸', '第四期', '它的', "they'll", '赶', '趁便', '除了', '’‘', 'shall', '近年来', 'looking', 'when', '有一批', '=☆', '56', '哪天', '三', '_', '忽地', '这会儿', '宁愿', '沿着', '所以', 'causes', '叮当', '嘘', 'instead', '及', '只是', '下列', '尤其', '纵然', '前者', 'ng昉', 'furthermore', '相应', '纯粹', 'went', 'yourselves', '为着', '内', 'been', 'this', '虽', '..', 'concerning', '一次', 'would', '此后', '第四届', '特殊', '只限', '于是', 'own', '再其次', '第三行', '㈧', 'formerly', '背靠背', "ain't", '有一对', 'two', '起', '打开天窗说亮话', '时候', '顺', 'three', '毕竟', 'anyways', '不能', '恰似', 'name', '60', '比照', 'think', '届时', '常常', '极端', '互', '反应', '七', '...', '嘻', '》),', '望', '除此之外', '凝神', '极了', '30', ')', ']', "he's", '获得', '无论', '<', '就要', '完成', '={', '如', '嘎嘎', '方便', '第五期', '又一村', '奇', '与其', '出来', '其实', '根据', '这一来', '从不', 'A', '凡', 'second', '趁着', 'respectively', '是什么意思', '然而', '分头', 'several', '不必', '决定', '藉以', 'otherwise', '普通', 'knows', '②', '+', '第十届', '今年', '一致', '嗳', 'sensible', '咦', '并且', '先后', 'provides', '其他', '赖以', '第二行', "it'll", '不由得', 'wherever', '这个', '不管', '起首', '起初', '<<', '从头', '哈', '基于', '迅速', '呕', '不得', '齐', 'sorry', '<', 'we', '最高', 'many', '不断', '没有', ')÷(1-', '当地', '有时', '凑巧', '倒不如', '有笑', 'yours', 'will', '此时', '就此', '看到', '一旦', '1.', '①', '巨大', 'eight', '连', '……', '前后', '96', '不能不', '且不说', 'him', '变成', '趁热', '只怕', '当即', '7', '没', '46', '故', '上去', '纵令', '从新', '焉', 'as', '上来', '一则', 'presumably', 'you', '除开', '地三鲜', '不迭', '%', '己', '比如', '=', '愤然', '能够', '当真', '分别', '逐渐', 'never', '被', ')、', '所谓', '大力', '不久', '就', '5', '年复一年', '断然', '碰巧', '当口儿', '综上所述', ',也', '过去', '用来', '恰如', '伟大', '难得', '}', '产生', '即使', '方能', '那会儿', '如此', '——', '第三日', '着呢', 'μ', '居然', '来着', '第三层', '造成', '得', '在于', '再', '得起', '然後', '大不了', 'want', '莫不然', '的话', '饱', '有没有', 'whereupon', 'yes', '恰好', '欢迎', '之後', '哎', '立即', '刚', 'indicate', '嗯', '”,', 'became', '第二款', 'upon', '95', 'appear', '您', '愿意', '$', '第四种', '有着', '有一起', 'quite', '———', '顷刻之间', 'its', '现代', '到底', '哎呀', 'regarding', 'Lex', '这边', '62', '不只', '适应', 'appropriate', '移动', '有关', '不力', '把', '何以', '08', '不尽然', "what's", '连日来', '小', '绝非', 'whole', '中小', '宣布', '借', '下', '谁', 'namely', 'clearly', '曾', '倒不如说', '会', '68', '月', '从早到晚', 'those', 'novel', '某个', '毫无保留地', '几番', '凭借', '大约', '取道', '不然的话', '大略', '29', '串行', '反倒', '兮', 'greetings', 'Δ', '不起', '啥', '有的是', '练习', '仅', '决不', '不外', '既是', 'lately', '自家', '︿', '云尔', '若非', '并没有', '切莫', '独', '依据', '哎哟', 'elsewhere', '从轻', '然', 'got', '成心', 'especially', '一方面', 'R.L.', 'et', 'contain', '喔唷', '三番两次', 'their', 'he', '保持', '常言道', '此处', 'however', '设若', '你是', '第', '于', '保管', '除去', '果然', 'hither', '策略地', '恰恰', '非徒', '一天', '不仅', '没奈何', '\u3000', '您是', 'herein', 'become', '不成', '以为', '公然', '据说', 'through', '第十一', '这么', '临', '属于', '转动', '总结', '具体说来', 'last', 'willing', '多次', '不要', "you're", '?', 'insofar', '(', '假使', 'allows', '呜呼', '并排', '纵使', '不亦乐乎', 'between', '经', '哩', '”', 'afterwards', "here's", '因为', '从小', '尔', '不料', '该当', '换句话说', 'help', '倘然', '么', '彻夜', 'either', '最后一题', '呵呵', '#', '5:0', '82', '共总', '隔夜', 'zz', '48', 'whence', '显著', '第五元素', '则甚', '呵', '连袂', 'unto', '一面', 'everybody', '09', '请勿', 'hopefully', '近', '矣', 'sometime', '一定', '所有', 'whether', '倍感', '又为什么', '`', 'ask', '反手', '还要', 'something', '对应', '反映', '69', '千万千万', '眨眼', 'nowhere', '不比', 'seen', '因了', 'in', '任务', '叮咚', '通过', 'could', '其一', '半', '哪年', '认为', '长线', '...................', '又及', 'whereafter', '进来', '最后一集', '⑥', '何时', '大多', '大批', '甭', 'better', '运用', 'somehow', '更重要的是', '管', 'followed', '依', '急匆匆', 'see', '这时', 'containing', '暗自', ' [', '广泛', '在下', '为此', '反倒是', 'all', '转变', '何必', '却不', '云云', '][', '儿', 'allow', 'seriously', "shouldn't", '恰巧', '本', '真是', '起头', '8', '第三回', 'becomes', '2', '弹指之间', 'after', '哼', '路经', '慢说', '他人', '日臻', '>', 'ignored', 'forth', '万一', '02', '何须', 'herself', '但是', '周围', '得了', '25', '甚且', '乎', 'thus', '的', 'latter', '不知不觉', '帮助', '其后', '呼啦', '故而', '大大', 'okay', '加上', '一一', '均', 'consider', '失去', '第三课', '66', '轰然', '开始', 'amongst', 'serious', '并不是', '^', 'of', '乘虚', '】', '第三声', '至今', '第二单元', 'they', '简而言之', '立时', '般的', 'and', 'therefore', '随', '最后一颗子弹', '你', '84', '有一道', 'though', '必', '朝', '以故', '全然', '处处', '常言说得好', '维持', '呗', 'viz', '瑟瑟', '『', '所', '清楚', 'thereby', "they've", '最后一班', 'lest', 'aside', '接着', 'fifth', '看上去', '不独', '反过来', '咧', '昂然', 'where', "i've", '孰知', '1', 'despite', '07', '大举', '第二', 'how', '粗', 'thru', '各位', '加之', '只要', 'every', '巴巴', 'etc', '第三遍', '譬如', '好', '单', '使', 'use', '梆', '此地', '除此而外', '99', '从事', '不至于', '~', '陡然', 'rd', 'for', '双方', 'it', '或者', '诸位', '可', 'were', '挨门逐户', 'done', '为什麽', 'doing', '可好', '何况', 'gets', '有意的', 'none', '哪样', '古来', '还有', '第三集', '好在', '全身心', '怎么', '》', '再者', '方面', 'are', '64', '决非', '极力', '男子', '无宁', '数', '不了', 'beside', ''', 'specifying', '一个', '第三张', '照', '从', '要不是', '刚巧', '又小', '正如', '再者说', '本人', '尽快', '只当', '不少', '如期', '16', '本地', '那样', '这里', 'if', '匆匆', '有一会了', '整个', 'others', '他的', '迄', '不日', '也罢', '18', '满', '何尝', '不若', '67', 'regardless', '喂', 'almost', 'example', '34', '截然', '第十三', '千万', '即是说', '"', 'th', '因此', '由', '别的', '也是', '年', '多多益善', '理应', '为了', '2.3%', '传说', '12%', '到头', '那边', '多少', '以外', '别管', '不可', '独自', 'unless', 'try', '//', '保险', '刚才', 'wants', '仍旧', '无法', '旁人', '有喜欢', '曾经', "'", '乒', '哪儿', 'among', '第四套', '更进一步', '行为', 'may', '哗', '、', '庶几', 'wonder', '引起', '用', '一些', '咚', '大致', '那般', '尚且', '最后一眼', '开外', '既...又', '这次', '社会主义', 'saw', 'nearly', '*', '理当', '......', '第五组', '只', '继续', '离', '实际', 'asking', '每当', '如下', '何', '给', '7', '一般', 'next', '什么', '下午', '亲身', '并无', '消息', '两者', 'mean', '豁然', '不管怎样', '尽管如此', '方', '更有甚者', '呐', '21', '避免', '23', '第四场', '毫无例外', '代替', '到目前为止', '…', '何处', '五', '另悉', '还', 'nevertheless', '‘', 'often', 'whereby', 'apart', '51', 'why', '明确', 'inward', 'myself', '以便', '另', '第五年', '某某', '相反', '更', '举凡', 'LI', '促进', '哟', '陈年', 'using', '孰料', '从中', '况且', '虽然', '屡', 'anyhow', '#', '日复一日', '良好', '有著', '啊哈', '第四声', '怎么样', 'while', '暗中', '先生', '第五单元', '那么', '经过', 'Ψ', '惟其', '相对而言', '不可开交', '大量', '老是', '不再', '日渐', '若', 'placed', '等等', '重大', '何乐而不为', '假如', '准备', "don't", '∈[', 'too', '∪φ∈', '连连', '不时', '无', '不消', '着', 'along', '17', '姑且', '哗啦', 'anywhere', 'A', '而外', '通常', 'changes', '刚好', '复杂', 'not', '大家', 'howbeit', '除非', '不经意', '从宽', '不常', '先不先', '传闻', 'overall', '比较', 'needs', '第三篇', '以後', '哪些', '放量', "where's", '第三项', '之类', '竟然', 'down', '甚至', '进步', '看看', '顷刻间', '来自', '传', 'first', '第四年', '虽说', 'brief', '~±', 'particularly', 'can', 'around', '你的', '阿', '应当', '才能', 'thorough', '错误', '挨着', '不巧', '巩固', '惯常', '第四册', '靠', '及其', '88', '--', '80', '第十二'}

三:通过gensim,加载预训练词向量,获取embedding_matrix

1:加载词向量

https://www.cnblogs.com/bill-h/p/14655224.html

使用下载好的训练好的词向量模型——/embeddings/sgns.weibo.bigram.bz2,

下载地址:https://pan.baidu.com/s/11PWBcvruXEDvKf2TiIXntg

from gensim.models import KeyedVectors

#读取词向量模型
def get_word2vec():
    word2vec=KeyedVectors.load_word2vec_format("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\embeddings\\sgns.weibo.bigram.bz2",binary=False,unicode_errors="ignore")
    #读取词向量文件sgns.weibo.bigram.bz2,使用越频繁的词就会越靠前。
    return word2vec

word2vec=get_word2vec()
# 获取“词-索引”字典
word2vec.key_to_index
{',': 0,
 '的': 1,
 '。': 2,
 '@': 3,
 '!': 4,
 '了': 5,
 '、': 6,
 ':': 7,
 '是': 8,
 '一': 9,
 '有': 10,
 '】': 11,
 '?': 12,
 '在': 13,
 '我': 14,
 '你': 15,
 '和': 16,
 '个': 17,
 '�': 18,
 '不': 19,
 '人': 20,
 '“': 21,
 '一个': 22,
 '就': 23,
 '都': 24,
 '也': 25,
 '我们': 26,
 '要': 27,
 '#': 28,
 '好': 29,
 '”': 30,
 '啊': 31,
 '这': 32,
 '去': 33,
 ',': 34,
 ';': 35,
 '很': 36,
 '月': 37,
 '还': 38,
 '.': 39,
 '1': 40,
 '微博': 41,
 '》': 42,
 '上': 43,
 '会': 44,
 '说': 45,
 '《': 46,
 '~': 47,
 '年': 48,
 '吧': 49,
 '小': 50,
 '大': 51,
 '天': 52,
 '能': 53,
 '-': 54,
 '吃': 55,
 '来': 56,
 '自己': 57,
 '让': 58,
 '可以': 59,
 '给': 60,
 ':': 61,
 '到': 62,
 '看': 63,
 '就是': 64,
 '最': 65,
 '(': 66,
 '为': 67,
 '中国': 68,
 '多': 69,
 '与': 70,
 '中': 71,
 '北京': 72,
 '这个': 73,
 '[': 74,
 '爱': 75,
 '他': 76,
 ']': 77,
 '做': 78,
 '日': 79,
 '【': 80,
 '把': 81,
 '想': 82,
 '又': 83,
 '没有': 84,
 '2': 85,
 '什么': 86,
 '大家': 87,
 '旅游': 88,
 '被': 89,
 '对': 90,
 '吗': 91,
 '过': 92,
 '不是': 93,
 '将': 94,
 '之': 95,
 '。。。': 96,
 ')': 97,
 '呢': 98,
 '3': 99,
 '等': 100,
 '着': 101,
 '啦': 102,
 '里': 103,
 '酒店': 104,
 '点': 105,
 '太': 106,
 '没': 107,
 '但': 108,
 '用': 109,
 '今天': 110,
 '两': 111,
 '哦': 112,
 '还是': 113,
 '第': 114,
 '……': 115,
 '而': 116,
 '三': 117,
 '――': 118,
 '次': 119,
 '喜欢': 120,
 '分享': 121,
 '从': 122,
 '后': 123,
 '知道': 124,
 '5': 125,
 '种': 126,
 '那': 127,
 '得': 128,
 '4': 129,
 '一起': 130,
 '这样': 131,
 '��': 132,
 '下': 133,
 '您': 134,
 '活动': 135,
 '?': 136,
 '(': 137,
 '们': 138,
 '你们': 139,
 '现在': 140,
 '生活': 141,
 '时候': 142,
 '请': 143,
 '才': 144,
 '时': 145,
 '再': 146,
 '世界': 147,
 '更': 148,
 '她': 149,
 '地': 150,
 '~': 151,
 '开始': 152,
 '第一': 153,
 '10': 154,
 '!': 155,
 '还有': 156,
 '可': 157,
 '这里': 158,
 '几': 159,
 '它': 160,
 '美食': 161,
 '看到': 162,
 '//': 163,
 '已经': 164,
 '因为': 165,
 '时间': 166,
 '这么': 167,
 '6': 168,
 '朋友': 169,
 '如果': 170,
 '只': 171,
 '不要': 172,
 '他们': 173,
 '美': 174,
 '谁': 175,
 '很多': 176,
 '7': 177,
 '以': 178,
 '...': 179,
 '家': 180,
 '转发': 181,
 '张': 182,
 '_': 183,
 '关注': 184,
 '元': 185,
 '…': 186,
 ')': 187,
 '8': 188,
 '支持': 189,
 '一下': 190,
 '希望': 191,
 '像': 192,
 '怎么': 193,
 '"': 194,
 '需要': 195,
 '走': 196,
 '不能': 197,
 '一定': 198,
 '/': 199,
 '上海': 200,
 '觉得': 201,
 '叫': 202,
 '位': 203,
 '比': 204,
 '于': 205,
 '自': 206,
 '条': 207,
 '老': 208,
 '旅行': 209,
 '却': 210,
 '号': 211,
 '店': 212,
 '事': 213,
 '9': 214,
 '那么': 215,
 '孩子': 216,
 '新': 217,
 '快': 218,
 '真的': 219,
 '体验': 220,
 '跟': 221,
 '转': 222,
 '地方': 223,
 '当': 224,
 '心': 225,
 '"': 226,
 '并': 227,
 '感觉': 228,
 '推荐': 229,
 '或': 230,
 '照片': 231,
 '找': 232,
 '城市': 233,
 '四': 234,
 '不会': 235,
 '幸福': 236,
 '十': 237,
 '应该': 238,
 '哈哈': 239,
 '博文': 240,
 '~~': 241,
 '真': 242,
 '小时': 243,
 '快乐': 244,
 '不错': 245,
 '工作': 246,
 '呀': 247,
 '一直': 248,
 '精彩': 249,
 '开心': 250,
 '及': 251,
 '一样': 252,
 '手机': 253,
 '最后': 254,
 '图': 255,
 '非常': 256,
 '起来': 257,
 '问题': 258,
 '发现': 259,
 '已': 260,
 '前': 261,
 '2013': 262,
 '出': 263,
 '名': 264,
 '来自': 265,
 '老师': 266,
 '至': 267,
 '所以': 268,
 '不过': 269,
 '新浪': 270,
 '看看': 271,
 '12': 272,
 '行': 273,
 '起': 274,
 '香港': 275,
 '早安': 276,
 '拍': 277,
 '如': 278,
 '成为': 279,
 '只有': 280,
 '成': 281,
 '30': 282,
 '带': 283,
 '][': 284,
 '各种': 285,
 '其实': 286,
 '人生': 287,
 '发布': 288,
 '微': 289,
 '带着': 290,
 '参加': 291,
 '但是': 292,
 '么': 293,
 '机会': 294,
 '文化': 295,
 '本': 296,
 '送': 297,
 '期待': 298,
 '+': 299,
 '儿': 300,
 '第二': 301,
 '片': 302,
 '开': 303,
 '买': 304,
 '玩': 305,
 '欢迎': 306,
 '视频': 307,
 '场': 308,
 '图片': 309,
 '获得': 310,
 '美丽': 311,
 '餐厅': 312,
 '这些': 313,
 '东西': 314,
 '11': 315,
 '感谢': 316,
 '晚上': 317,
 '正在': 318,
 '花': 319,
 '网': 320,
 '摄影': 321,
 '20': 322,
 '参与': 323,
 '半': 324,
 '五': 325,
 '那些': 326,
 '发': 327,
 '刚': 328,
 '二': 329,
 '七': 330,
 '更多': 331,
 '所有': 332,
 '由': 333,
 '只是': 334,
 '成功': 335,
 '晚': 336,
 '明天': 337,
 '水': 338,
 '可爱': 339,
 '中的': 340,
 '喝': 341,
 '%': 342,
 '电影': 343,
 '免费': 344,
 '15': 345,
 '周末': 346,
 '听': 347,
 '客户端': 348,
 '该': 349,
 '加': 350,
 '每': 351,
 '先': 352,
 '味道': 353,
 '分钟': 354,
 '咖啡': 355,
 '滴': 356,
 '美国': 357,
 '位于': 358,
 '谢谢': 359,
 '国际': 360,
 '游': 361,
 '梦想': 362,
 '真是': 363,
 '国家': 364,
 '岁': 365,
 '--': 366,
 '菜': 367,
 '那个': 368,
 '特别': 369,
 'good': 370,
 '别人': 371,
 '享受': 372,
 '长': 373,
 '每天': 374,
 '为了': 375,
 '打': 376,
 '有人': 377,
 '最好': 378,
 '写': 379,
 '达人': 380,
 '哥': 381,
 '女人': 382,
 '设计': 383,
 '其': 384,
 '无': 385,
 '服务': 386,
 '一些': 387,
 '公司': 388,
 '故事': 389,
 '出来': 390,
 '生命': 391,
 '台湾': 392,
 '内': 393,
 '必须': 394,
 '官方': 395,
 '如何': 396,
 '这种': 397,
 '创意': 398,
 '可能': 399,
 '件': 400,
 '多少': 401,
 '飞': 402,
 '日本': 403,
 '周': 404,
 '别': 405,
 '向': 406,
 '健康': 407,
 '今晚': 408,
 '不同': 409,
 '音乐': 410,
 '事情': 411,
 '选择': 412,
 '终于': 413,
 '一点': 414,
 ';': 415,
 '只要': 416,
 '座': 417,
 '全': 418,
 '风景': 419,
 '奥迪': 420,
 '站': 421,
 '然后': 422,
 '如此': 423,
 '最大': 424,
 '高': 425,
 '继续': 426,
 '好吃': 427,
 '哈哈哈': 428,
 '记得': 429,
 '香': 430,
 '版': 431,
 '死': 432,
 '总': 433,
 '妈妈': 434,
 '历史': 435,
 '此': 436,
 '准备': 437,
 '产品': 438,
 '哪': 439,
 '帮': 440,
 '永远': 441,
 '―': 442,
 '以后': 443,
 '景区': 444,
 '品牌': 445,
 '时尚': 446,
 '书': 447,
 '路上': 448,
 '现场': 449,
 '加入': 450,
 '刚刚': 451,
 '全国': 452,
 '问': 453,
 '笑': 454,
 '男人': 455,
 '一切': 456,
 '为什么': 457,
 '2012': 458,
 '阳光': 459,
 '爱心': 460,
 '子': 461,
 '今年': 462,
 '重要': 463,
 '猫': 464,
 '分': 465,
 '微信': 466,
 '・': 467,
 '天下': 468,
 '2014': 469,
 '有点': 470,
 '努力': 471,
 '厦门': 472,
 '岛': 473,
 '哈': 474,
 '生': 475,
 '粉丝': 476,
 '度': 477,
 '超级': 478,
 '美好': 479,
 '王': 480,
 '超': 481,
 '夜': 482,
 '最美': 483,
 '各位': 484,
 '主题': 485,
 '求': 486,
 '杯': 487,
 '拥有': 488,
 '经典': 489,
 '车': 490,
 '浪漫': 491,
 '肉': 492,
 '简单': 493,
 '节目': 494,
 '份': 495,
 'A': 496,
 '所': 497,
 '企业': 498,
 '真正': 499,
 '红': 500,
 '米': 501,
 '而是': 502,
 '全球': 503,
 '三亚': 504,
 '国内': 505,
 '款': 506,
 '吃货': 507,
 '之旅': 508,
 '虽然': 509,
 '拍摄': 510,
 '力': 511,
 '山': 512,
 '粉': 513,
 '总是': 514,
 '美味': 515,
 '亲': 516,
 '传统': 517,
 '」': 518,
 '学习': 519,
 '黑': 520,
 '以及': 521,
 '适合': 522,
 '六': 523,
 '秀': 524,
 '地址': 525,
 '是不是': 526,
 '管理': 527,
 '路': 528,
 '~~~': 529,
 '未来': 530,
 '好看': 531,
 '梦': 532,
 '之后': 533,
 '直接': 534,
 '100': 535,
 '茶': 536,
 '八': 537,
 '爱情': 538,
 '卫视': 539,
 '少': 540,
 '市场': 541,
 '嘛': 542,
 '越': 543,
 '提供': 544,
 '放': 545,
 '穿': 546,
 '则': 547,
 '时代': 548,
 '18': 549,
 '间': 550,
 '都会': 551,
 '成都': 552,
 '回家': 553,
 '红包': 554,
 '篇': 555,
 '广州': 556,
 '新闻': 557,
 '女': 558,
 '通过': 559,
 '抢': 560,
 '同学': 561,
 '因': 562,
 '酒': 563,
 '「': 564,
 '人们': 565,
 '干': 566,
 '才能': 567,
 '摄影师': 568,
 '回': 569,
 '结果': 570,
 '值得': 571,
 '是否': 572,
 '见': 573,
 '之一': 574,
 '感受': 575,
 '进行': 576,
 '赞': 577,
 '使': 578,
 '只能': 579,
 '以为': 580,
 '漂亮': 581,
 '者': 582,
 '面': 583,
 '自然': 584,
 '新鲜': 585,
 '神': 586,
 '而且': 587,
 '发展': 588,
 '媒体': 589,
 '下午': 590,
 '认为': 591,
 '挖': 592,
 '鱼': 593,
 '注意': 594,
 '美女': 595,
 '游客': 596,
 '入': 597,
 '作品': 598,
 '加油': 599,
 '社会': 600,
 '同时': 601,
 '拿': 602,
 '原来': 603,
 '道': 604,
 '天气': 605,
 '容易': 606,
 '话': 607,
 '22': 608,
 '约': 609,
 '放入': 610,
 '一般': 611,
 '得到': 612,
 '牛': 613,
 '中心': 614,
 '完美': 615,
 '段': 616,
 '手': 617,
 '无法': 618,
 '每日': 619,
 '推出': 620,
 '各': 621,
 '环境': 622,
 '快来': 623,
 '锅': 624,
 '字': 625,
 '可是': 626,
 '相信': 627,
 '啥': 628,
 '50': 629,
 '男': 630,
 '其中': 631,
 '艺术': 632,
 '晚安': 633,
 '找到': 634,
 '好友': 635,
 '住': 636,
 '目前': 637,
 '祝': 638,
 '之前': 639,
 '雨': 640,
 '居然': 641,
 '童鞋': 642,
 '或者': 643,
 '句': 644,
 '过去': 645,
 '→': 646,
 '作为': 647,
 '编': 648,
 '除了': 649,
 '一家': 650,
 '群': 651,
 '系列': 652,
 '温暖': 653,
 '食': 654,
 '00': 655,
 '四川': 656,
 '不用': 657,
 '不到': 658,
 '有些': 659,
 '用户': 660,
 '完全': 661,
 '进入': 662,
 '正': 663,
 '风': 664,
 '信息': 665,
 '心情': 666,
 '出现': 667,
 '使用': 668,
 '越来越': 669,
 '部': 670,
 '内容': 671,
 '看着': 672,
 '特色': 673,
 '挺': 674,
 '马上': 675,
 '相声': 676,
 '最近': 677,
 '台': 678,
 '升级': 679,
 '哪里': 680,
 '.': 681,
 '营销': 682,
 '报名': 683,
 '私信': 684,
 '即将': 685,
 '电话': 686,
 '木': 687,
 '外': 688,
 '杂志': 689,
 '绝对': 690,
 '坐': 691,
 '发生': 692,
 '君': 693,
 '其他': 694,
 '南京': 695,
 '演员': 696,
 '突然': 697,
 '每个': 698,
 '飞机': 699,
 '声音': 700,
 '���': 701,
 '吃饭': 702,
 '活': 703,
 '嘻哈': 704,
 '价格': 705,
 '建筑': 706,
 '卖': 707,
 'V': 708,
 '互联网': 709,
 '泰国': 710,
 '决定': 711,
 '先生': 712,
 '睡': 713,
 '这次': 714,
 '了解': 715,
 '食物': 716,
 '好好': 717,
 '油': 718,
 '靠': 719,
 '告诉': 720,
 '若': 721,
 '名字': 722,
 '对于': 723,
 '好像': 724,
 '法国': 725,
 '朋友们': 726,
 '坚持': 727,
 '口': 728,
 '能够': 729,
 '学': 730,
 '身边': 731,
 '方式': 732,
 '连': 733,
 '带来': 734,
 '日子': 735,
 '比较': 736,
 '太多': 737,
 '苹果': 738,
 '老板': 739,
 '时光': 740,
 '里面': 741,
 '个人': 742,
 '广告': 743,
 '任何': 744,
 '感动': 745,
 '结束': 746,
 '回来': 747,
 '炒': 748,
 '近': 749,
 '包': 750,
 '人民': 751,
 '另': 752,
 '早': 753,
 '称': 754,
 '14': 755,
 '曾': 756,
 '空间': 757,
 '确实': 758,
 '俺': 759,
 '祝福': 760,
 '著名': 761,
 '杭州': 762,
 '今日': 763,
 '人家': 764,
 '餐饮': 765,
 '更好': 766,
 '帮助': 767,
 '2011': 768,
 '曾经': 769,
 '味': 770,
 '团队': 771,
 '且': 772,
 '边': 773,
 '韩国': 774,
 '改变': 775,
 '妈': 776,
 '影响': 777,
 '最佳': 778,
 '19': 779,
 '想要': 780,
 '届': 781,
 '丰富': 782,
 '换': 783,
 '同': 784,
 '价值': 785,
 '姐': 786,
 '出发': 787,
 '下载': 788,
 '便': 789,
 '赶紧': 790,
 '钱': 791,
 '16': 792,
 '收到': 793,
 '主要': 794,
 '公里': 795,
 '达': 796,
 '13': 797,
 '必': 798,
 '新疆': 799,
 '旅': 800,
 '正式': 801,
 '24': 802,
 '建议': 803,
 '代表': 804,
 '专业': 805,
 '寻找': 806,
 '不仅': 807,
 '些': 808,
 '自由': 809,
 '80': 810,
 '旅游局': 811,
 '年前': 812,
 '声': 813,
 '集团': 814,
 '汽车': 815,
 '城': 816,
 '海': 817,
 '网络': 818,
 '肯定': 819,
 '热': 820,
 '新的': 821,
 '身体': 822,
 '21': 823,
 '品': 824,
 '即可': 825,
 '特': 826,
 '温泉': 827,
 '计划': 828,
 '笑哈哈': 829,
 '春节': 830,
 '昨天': 831,
 '云南': 832,
 '遇到': 833,
 '25': 834,
 '天天': 835,
 '首': 836,
 '头': 837,
 '碗': 838,
 '也许': 839,
 '项目': 840,
 '精神': 841,
 '节': 842,
 '颗': 843,
 '看来': 844,
 '好多': 845,
 '表示': 846,
 '九': 847,
 '优惠': 848,
 '错过': 849,
 '度假': 850,
 '深圳': 851,
 '期': 852,
 '配': 853,
 '很好': 854,
 'B': 855,
 '记者': 856,
 '卡': 857,
 '天津': 858,
 '不想': 859,
 '意大利': 860,
 '网站': 861,
 '恭喜': 862,
 '团': 863,
 '安全': 864,
 '婚礼': 865,
 '功能': 866,
 '不好': 867,
 '火': 868,
 '煮': 869,
 '型': 870,
 '尽': 871,
 '当然': 872,
 '评论': 873,
 '机场': 874,
 '雪': 875,
 '画': 876,
 '变成': 877,
 '行业': 878,
 '就要': 879,
 '政府': 880,
 '攻略': 881,
 '哟': 882,
 '处': 883,
 '季': 884,
 '据': 885,
 '游戏': 886,
 '还要': 887,
 '讲': 888,
 '整个': 889,
 '充满': 890,
 '想起': 891,
 '能力': 892,
 '真心': 893,
 '员工': 894,
 '风格': 895,
 '泡': 896,
 '欢乐': 897,
 '要求': 898,
 '之间': 899,
 '不如': 900,
 '实在': 901,
 '17': 902,
 '不了': 903,
 '一路': 904,
 '火锅': 905,
 '美景': 906,
 '英国': 907,
 '盐': 908,
 '移动': 909,
 '享': 910,
 '关于': 911,
 '再次': 912,
 '不少': 913,
 '乐': 914,
 '数据': 915,
 '当年': 916,
 '餐': 917,
 '早上': 918,
 '李': 919,
 '饭': 920,
 '亲们': 921,
 '云': 922,
 '平台': 923,
 '青年': 924,
 '唱': 925,
 '青春': 926,
 '到底': 927,
 '制作': 928,
 '估计': 929,
 '组': 930,
 '呵呵': 931,
 '依然': 932,
 '经常': 933,
 '想去': 934,
 '变': 935,
 '早餐': 936,
 '惊喜': 937,
 '丝': 938,
 '式': 939,
 '甚至': 940,
 '包括': 941,
 '蛋糕': 942,
 '保护': 943,
 '方法': 944,
 '看见': 945,
 '圣诞': 946,
 '点击': 947,
 '海南': 948,
 '西藏': 949,
 '宝宝': 950,
 '话题': 951,
 '来到': 952,
 '技术': 953,
 '愿': 954,
 '生日': 955,
 '选': 956,
 '周年': 957,
 '汤': 958,
 '德国': 959,
 '领导': 960,
 '白': 961,
 '大师': 962,
 '搭配': 963,
 '一生': 964,
 '光': 965,
 '经历': 966,
 '票': 967,
 '来说': 968,
 '夏天': 969,
 '楼': 970,
 '未': 971,
 '心里': 972,
 '南': 973,
 '仅': 974,
 '春天': 975,
 '姑娘': 976,
 '感': 977,
 '鸡': 978,
 '会员': 979,
 '明星': 980,
 '层': 981,
 '包袱': 982,
 '不管': 983,
 '搞': 984,
 '电视': 985,
 '左右': 986,
 '拉': 987,
 '完': 988,
 '某': 989,
 '最爱': 990,
 '下次': 991,
 '父母': 992,
 '竟然': 993,
 '多年': 994,
 '过来': 995,
 '东方': 996,
 '认识': 997,
 '合作': 998,
 '不断': 999,
 ...}
# 查询词语“地球”对应的词向量
word2vec.word_vec('地球')
<ipython-input-53-68063290bfef>:2: DeprecationWarning: Call to deprecated `word_vec` (Use get_vector instead).
  word2vec.word_vec('地球')





array([ 0.594169, -0.568692, -0.776196, -0.324364,  0.016311, -0.225051,
        0.420986,  0.43116 ,  0.428265, -0.256983,  0.370124,  0.305862,
       -0.020324,  0.243007,  0.234712, -0.614161, -0.140672,  0.695551,
        0.083963,  0.689722,  0.233259,  0.152571,  1.024671,  0.139783,
        0.202395,  0.152258, -0.26312 ,  0.102958,  0.248036,  0.131189,
        0.275885,  0.082996,  0.491571,  0.225018,  0.266493, -0.420912,
       -0.471418,  0.809017,  0.141163,  1.130004, -0.261278, -0.856712,
       -0.400395,  0.198048,  0.05645 ,  0.678296,  0.2836  , -0.130534,
        0.805508,  0.093283, -0.646966,  0.529736,  0.779232,  0.551138,
        0.174808,  0.247027, -0.373688, -0.576475, -0.325732, -0.082459,
       -0.47632 , -0.229266,  2.085353,  0.592716,  0.176334,  0.497692,
        0.649653,  0.144183,  0.703805,  0.034919,  0.748792,  0.085221,
        0.473858, -0.401072, -0.947229,  0.576858,  0.315247, -0.640268,
        0.342379, -1.558704,  0.086163,  0.334141, -0.820931, -0.971747,
        0.265167,  0.501708, -0.44508 , -0.201019,  1.137126, -0.524235,
        0.358898, -0.225462,  0.265465, -0.206449, -1.366041,  0.199185,
        0.268479, -0.708933, -0.317492,  0.005376,  0.459616, -0.052285,
       -0.337994, -1.220452,  0.09167 ,  0.315118, -0.063763, -0.426036,
        0.205738,  0.323416,  0.57625 , -0.164826, -0.525151, -0.1566  ,
       -0.518378,  0.313611,  0.06549 ,  0.194561,  0.198763, -0.622947,
        0.689087,  0.152702, -0.230708,  0.393303,  0.288658, -0.469481,
        0.101568, -0.559899, -0.239013,  0.04444 , -0.512653, -0.191998,
       -0.154456,  1.33964 ,  0.32832 ,  0.982129, -0.171914,  0.494866,
        1.032956,  0.24044 , -0.905777, -0.272647, -0.161794, -0.211096,
       -0.920188,  0.985234, -0.044058, -0.38891 ,  0.681905, -0.400282,
       -0.500766, -0.127555,  0.307823,  0.694935, -0.512435, -0.901273,
        0.641044, -0.16945 ,  0.632315,  0.272749, -0.694152,  0.686993,
        0.262837,  0.59613 ,  0.090302,  1.860848, -0.166851,  0.276754,
       -0.555203,  0.697493,  0.936634,  0.193718,  0.196608,  0.073793,
        0.082054,  0.284785, -0.812682, -0.204861,  0.824906, -0.676902,
       -0.854978, -0.909203, -0.280592, -0.480879, -0.217995, -0.256043,
        0.517293,  0.201248, -0.565574,  0.360344,  0.181837, -0.133435,
       -0.334987,  0.040227,  0.501909,  0.191659,  0.209178,  0.099721,
       -0.124362,  0.848287, -0.029316,  0.113569,  0.747785,  0.206726,
        0.339223,  0.1414  , -0.828587,  0.846909, -0.486901,  0.042668,
       -0.349429, -0.0491  , -0.188621,  0.628018,  0.787592,  0.619018,
       -0.729359,  0.633972,  0.678034, -0.252666,  0.008   , -0.2895  ,
        0.995281, -0.099295,  0.846986,  0.657285,  0.736554,  0.796017,
       -0.118278, -0.671056, -0.684588,  0.024951,  0.084893,  1.330889,
       -0.907356, -0.469333, -0.937091, -0.621381,  0.037569,  1.131863,
       -0.082662, -0.200744,  0.316928, -0.207599,  0.280597, -0.627365,
        1.029001,  0.589092,  0.556169,  0.513512, -0.441827,  0.05047 ,
       -0.215281, -1.183606, -0.011877, -0.588229, -0.492906,  0.49306 ,
        0.377719,  0.569881, -0.647512,  0.328652, -0.105831,  0.318817,
       -0.024814, -0.292444, -0.298455, -0.460332,  0.08468 , -0.303269,
       -0.0561  , -0.369285,  0.584729, -0.051919,  0.328322, -0.826165,
       -0.872997, -1.262497,  0.06934 , -0.400124, -0.969265, -0.209392,
       -0.524788,  0.12054 , -0.275462,  0.336152, -0.465911,  0.601564,
        1.018939,  0.239033,  0.63644 ,  1.337305,  0.22037 ,  0.3295  ,
       -0.219874,  0.385543, -0.417511,  0.481287, -1.519231,  0.074622],
      dtype=float32)
# 查询与“地球”最相近的词
word2vec.most_similar('地球')
[('自转', 0.5498958230018616),
 ('@WWF', 0.5482718348503113),
 ('世界自然基金会', 0.5304360389709473),
 ('月球', 0.5204099416732788),
 ('太阳系', 0.5103502869606018),
 ('熄灯', 0.509930431842804),
 ('星球', 0.5082988142967224),
 ('8.214', 0.5052586793899536),
 ('地球日', 0.4897368550300598),
 ('小行星', 0.47547173500061035)]

2:获取embedding_matrix

通过以上操作我们可以得到微博文本的词向量表示。每一条谣言为一条样本数据。通过分词和去除停用词得到每一

条样本的文本特征,再使用已训练好的词向量得到上述谣言文本特征词的向量表示。

本节用以构造可以输入到机器学习模型与深度学习模型的样本矩阵。

每一条样本为50000*300维的矩阵。每一个词表示为300维的向量。50000为微博词汇库里使用频率前50000个词汇。

若某条数据有7个词汇,则该数据为50000*300维的矩阵,且只有7行非0,其余元素全为0.显然样本数据高度稀疏。

举例:

非谣:1 #星娱星乐#一个朋友和一个送外卖的帅哥之间的故事。温馨有爱,令人感动。

提取文本特征:星娱星乐 朋友 送 外卖 帅哥 故事 温馨 爱 感动,共9个文本特征词汇

由于词汇“星娱星乐”不属于频率为前50000词汇,去除该文本。剩下8个文本特征。

该样本为50000*300维的矩阵,其中只有词汇“朋友 送 外卖 帅哥 故事 温馨 爱 感动”对应的行向量非0,其余词

向量变为0.

在这里插入图片描述



  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值