一:jieba分词和pkuseg分词
原代码文件
链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg
提取码:e4nv
目录:
1:分词介绍:
目标:中文句子中的词与词之间加上边界标记,本质是划分词的边界。
英文天然有空格作为分词符合。而对于中文如何让机器智能识别出单词词汇,是文本分析的第一步。
基本分词思想:(1) 由句子到词.(2) 由字到词
具体分词方法:
举例:
如何分词使得这个句子的共现概率最大
2:jieba中文分词
分词原理:HMM(隐马尔可夫模型)
(如何设置分词符号,使得句子的共线概率最大)
3:实践:分词
import jieba
import pkuseg
text = "绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。"
seg_list = jieba.cut(text, cut_all=False, HMM=True)
print("jieba Cut result is: " + " ".join(seg_list))
seg = pkuseg.pkuseg() # 以默认配置加载模型
text = seg.cut(text) # 进行分词
print("pkuseg Cut result is: " + "/".join(text))
jieba Cut result is: 绿子 在 电话 的 另一头 久久 默然不语 , 如同 全世界 的 细雨 落 在 全世界 所有 的 草坪 上 一般 的 沉默 在 持续 。
pkuseg Cut result is: 绿子/在/电话/的/另/一头/久久/默然不语/,/如同/全世界/的/细雨/落/在/全世界/所有/的/草坪/上/一般/的/沉默/在/持续/。
二:去除停用词
1:实践:去除停用词
在使用使用jieba或pkuseg分词后,每一个句子被划分为一个个词。但是有些词是没有意义的(无法体现该段文本的
特征),如“在”,“的”,“一些”,标点符号等。因此我们需要去除这些词。这一步骤称为“去除停用词”。
如下是本次实验使用的停用词文件
#获取停用词集合
def get_stopwords():
stopwords = pd.read_csv ("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\stopwords\\stopwords.txt", index_col=False, sep="\t", quoting=3, names=['stopword'],
encoding='utf-8')
return set(stopwords['stopword'].values.tolist())
def cutsentences(sentences): #定义函数实现分词
print('原句子为:'+ sentences)
cutsentence = jieba.lcut(sentences.strip()) #精确模式
print ('\n'+'分词后:'+ "/ ".join(cutsentence))
stopwords = get_stopwords() # 这里加载停用词的路径
lastsentences = ''
for word in cutsentence: #for循环遍历分词后的每个词语
if word not in stopwords: #判断分词后的词语是否在停用词表内
if word != '\t':
lastsentences += word
lastsentences += "/ "
print('\n'+'去除停用词后:'+ lastsentences)
sentence = '绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。'
cutsentences(sentence)
原句子为:绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。
分词后:绿子/ 在/ 电话/ 的/ 另一头/ 久久/ 默然不语/ ,/ 如同/ 全世界/ 的/ 细雨/ 落/ 在/ 全世界/ 所有/ 的/ 草坪/ 上/ 一般/ 的/ 沉默/ 在/ 持续/ 。
去除停用词后:绿子/ 电话/ 另一头/ 久久/ 默然不语/ 全世界/ 细雨/ 落/ 全世界/ 草坪/ 沉默/ 持续/
附:查看停用词文件
stopwords = get_stopwords() # 这里加载停用词的路径
print(type(stopwords))
stopwords_=list(stopwords) #set是集合,无序,查看元素只能遍历所有打印出来,转为list.
print(stopwords_[1:20])
<class 'set'>
['个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年']
print(stopwords)
{nan, '个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年', '殆', 'thanks', '_', '傥然', '10', 'his', '-', '照着', '这些', '具体来说', '-[*]-', '|', '知道', '立刻', '恍然', 'usually', '借此', 'more', '不过', '这麽', '岂止', '=[', 'possible', 'off', 'probably', 'took', '一转眼', 'value', '致', '咱们', 'b]', '(', '!', '人', '除却', '允许', '100', '哼唷', '切勿', '咋', '见', '4', '89', '当前', '这么样', '左右', '庶乎', '接著', '第二大节', '结果', 'now', 'neither', '第五大道', '共同', '看起来', '⑧', 'says', '不拘', 'specify', '紧接着', '光', '我的', '冲', 'nor', 'on', '三番五次', '起见', '关于', '第二类', 'cannot', 'nine', '莫如', 'seemed', '奈', 'outside', '而又', '不会', '如若', '自从', '由于', '2016', 'twice', '有效', '91', '或许', 'hereafter', '93', '相等', '意思', '第五集', '53', '打', '争取', '当中', 'that', '」', '仅仅', '之前', "it'd", 'say', '@', 'seeming', '更有趣', '05', '取得', '除此以外', '吓', 'e]', '不一', 'once', '虽则', '向使', '来看', '敢情', '9', 'there', '其', '上午', '行动', 'seven', "you've", 'used', '下面', '大事', 'seeing', '很', '49', '暗地里', '从此以后', '也好', '尽管', 'indicated', '且说', '长此下去', '有一期', 'toward', '不曾', 'said', '70', '到处', 'per', '存心', '那末', '人人', '元/吨', 'indicates', '与其说', '勃然', '第二讲', '从此', 'believe', '吱', "there's", '当下', '赶早不赶晚', '平素', 'thereafter', '过来', 'go', '不问', '.一', '是否', 'our', '来不及', '秒', 'relatively', '哪边', '又笑', 'like', '要', 'far', 'seems', '往', '相当', '随后', '倒是', '反之亦然', '72', '倘', '看', '具有', 'follows', '一边', 'anybody', '如今', '第四者', '54', 'us', '②c', '第二盘', '可以', 'ones', '那么些', '适当', '怪', '有及', '一番', '奋勇', 'only', '是的', '来讲', '65', '新华社', '嗡嗡', '某', '别处', '≈', 'these', '极其', '处在', '和', '啪达', 'consequently', '仍然', '啊哟', '犹且', '极大', '绝顶', '第三件', '高兴', '遵照', 'into', '到头来', 'considering', '宁可', '简直', '长话短说', 'them', '正是', '我们', '上', '不但', '设使', '那时', '不限', '每每', '叫做', '如其', '几度', '自打', '总是', '不大', '之所以', '乌乎', '怎奈', '越是', 'specified', '大概', 'regards', 'four', 'becoming', '漫说', '不胜', '贼死', '尽如人意', '“', '别说', './', 'zt', '遵循', '以期', '大体', ';', '上去--', 'alone', '弗', 'towards', '。', '~+', '不惟', 'soon', '不下', '对', '〕〔', '谁知', 'co', '如是', '自后', '继后', '敢于', '非得', '第十六', 'below', '如常', '里面', '0', '便', '后面', '总之', '构成', '该', 'someone', '假若', 'ever', 'getting', '如果', '沙沙', '二', '余外', 'nd', '【', '偏偏', '常言说', '罢了', '41', 'ltd', '第五课', 'few', '依照', '′|', '42', '当然', '不止一次', '第二任', '及时', '冒', '替', '或则', '就是', '果真', '不仅...而且', '具体地说', '丰富', '而', '光是', 'seem', '时', 'have', 'hence', 'hereupon', '大张旗鼓', '起来', '因而', 'tries', 'nobody', '从来', '许多', '带', 'against', '使用', 'both', 'who', '3', 'away', '女子', 'contains', 'together', '+', '非但', '了', '说来', '92', 'available', '第三站', '就是了', '并没', '〕', '第五位', 'above', '差一点', '伙同', '既', '倘使', '/', '既往', '咱', '上下', '但凡', '乃至', '人们', 'merely', '即刻', '六', '等', '默默地', 'c]', '并', 'without', '86', '出', '而论', 'exactly', '反过来说', '>λ', '全力', '81', 'then', '按时', 'besides', 'was', 'about', '巴', '彼此', '联袂', '第十九', '嘿', 'old', '与否', '部分', '26', '并肩', '36', '三天两头', "didn't", '八成', '③', '按', '↑', '6', '77', "you'd", '22', '为主', '4', '当头', '还是', '单纯', '始而', '喏', '58', "doesn't", 'normally', '分期', 'across', 'know', "wasn't", '则', '44', '哉', 'any', "t's", '实现', 'everywhere', '不止', '他们', '必将', '诚如', '非特', 'sure', '47', '总的来说', '不特', '似的', '顺着', '一切', '一来', '顷刻', '呃', "we'd", '他是', '[]', '必须', '以至于', 'zero', '各人', '同时', "won't", 'saying', '正确', '亲自', '不怕', 'near', 'thanx', '非独', 'un', '第十次', '随着', '顷', 'does', '谁料', '〉', '6', '若夫', '四', '进行', "isn't", '最后一关', '替代', '宁肯', '应该', '达到', 'whatever', '[-', '[', '何苦', 'still', '已', '自己', '沿', '要是', '而已', '重新', 'my', '从今以后', '根本', '多少钱', '大面儿上', '叫', '防止', '谨', '从古至今', 'until', '以来', '掌握', '具体', '若是', 'six', '企图', '借以', 'qv', '鄙人', '43', '今後', '敢', 'be', 'described', 'very', '去', '看来', '而况', '难说', '每年', '3', '啷当', "c's", "we've", '不得不', 'gone', 'should', '得天独厚', '这样', '特别是', '表示', '即便', '如此等等', 'the', '种', '至于', '〔', '倘或', '第三单元', '兼之', 'ought', '第四张', '以及', '而是', '快', '2014', '猛然间', '二来', '一起', 'likely', '换言之', '待到', '第三句', ':', '全年', 'sub', '对于', '采取', '只有', '下去', '~', '别人', "weren't", '截至', '尽量', '呼哧', '于是乎', 'yourself', '挨家挨户', '活', 'hardly', '啐', '74', '〈', '′∈', '故此', '她', '满足', '全部', '52', '不定', 'later', '并非', '多么', '切切', '再说', '第二波', '了解', '所在', '除', 'whereas', 'hello', '然后', '按期', '第十集', '乃', '那麽', '有的', ']∧′=[', '有一部', '如前所述', '呀', '>', 'himself', '任何', '此外', '最近', '经常', '若果', '屡屡', '规定', 'further', '>>', '率尔', '忽然', '全体', '充分', '安全', 'might', 'nothing', '几时', 'being', '甚而', 'ok', '这儿', '开展', '什麽', '宁', '这种', '存在', '自身', '我', '不对', '~~~~', '别是', '随著', 'corresponding', '吧哒', '牢牢', '是什么', '第三期', '每', '一何', '85', '另行', '不但...而且', '唉', '以下', 'your', '精光', '即若', '极度', '第十一个', '已矣', 'everything', '1', 'little', '猛然', 'everyone', '共', '如何', '相信', '③]', '老大', 'oh', '难怪', 'downwards', '本身', '吧', '几乎', 'Ⅲ', '重要', '边', 'me', 'thoroughly', '较为', '=', '迟早', '多年来', '过于', '抑或', '彼时', 'rather', '任凭', '合理', '固然', '从优', '一.', '55', "we're", '相同', '趁势', '马上', '处理', '累次', '』', '不变', '可见', '当着', '甚或', '不择手段', 'associated', '看出', '极为', ']', '&', '鉴于', '9', '反之', '再则', 'behind', '特点', 'get', '怎样', '第十天', 'γ', '毫不', '尔等', '再有', '後来', 'did', '即如', '可能', 'anything', '敞开儿', '零', '最后一遍', '略微', 'ex', '|', 'theirs', '}', 'no', '它们', '*', '71', '组成', '非常', '?', '更有意义', '又又', '40', '──', '@', '末##末', '最后', '之一', '④', '基本', '最後', 'via', '岂', '·', 'somebody', '不光', 'within', '多数', '如上', 'just', 'perhaps', '不仅仅', '仍', 'which', '何止', '别', '这', '诚然', '遇到', '地', '间或', 'que', '能否', '分期分批', '那个', '成为', '趁', '14', '立', '现在', '切', '是以', 'vs', '有一根', 'entirely', '俺们', '正常', "who's", ':', '召开', '什么意思', '向', '有一百', '⑦', '难道说', '欤', '范围', '或多或少', '97', '75', 'beyond', '哪怕', '98', '呜', '恐怕', '受到', '风雨无阻', 'enough', '竟', 'ZT', '即或', "i'm", '确定', '老', 'ZXFITL', 'unfortunately', '第二首', 'least', '15', 'up', '其二', '莫不', '集中', '咳', '各个', '九', '大凡', '第三册', '连日', 'uses', '只消', '据悉', '最好', 'less', '喀', '不得已', 'most', 'some', '从古到今', '联系', 'since', '归根到底', 'going', '亦', '这般', '但', '并不', 'already', '更远的', '它', '尔后', 'ours', '将要', '认识', '否则', '据我所知', '明显', 'here', 'to', 'non', '千', '即将', '按照', 'somewhat', 'from', '川流不息', 'has', '不怎么', '乃至于', 'unlikely', '绝不', 'self', '能', '或曰', '有些', '自各儿', '全面', '广大', '接连不断', '们', '汝', 'anyone', "we'll", 'new', '出现', '其次', 'but', '×', '何妨', '再次', 'way', 'given', 'again', '诸如', '⑤', '后来', '上升', '差不多', '由此可见', '不同', '嘎', '全都', 'whom', '个', '日', '01', '大体上', "haven't", '第四代', '恰恰相反', 'do', '03', '27', '偶尔', '又一遍', '一片', '由此', '这就是说', '当', '有利', '之后', 'right', 'much', '挨个', '要么', 'wherein', '下来', 'В', '不已', '又', 'five', 'exp', '79', 'her', '十分', '得到', '权时', '看样子', '[', '进而', 'thereupon', '各级', '让', '好象', '上述', '臭', '有问题吗', '://', '如同', '由是', '为', '进入', '又喜欢', 'other', '将才', '倍加', '她是', '彼', '近几年来', '说明', "they'd", 'obviously', '第二十', '31', 'take', '从未', '唯有', 'during', '不得了', '更为', '亲口', '专门', "i'd", '当场', 'happens', '-β', '最后一科', '后', '如上所述', 'an', "you'll", 'please', '看见', '砰', '故意', '日见', '其余', '某些', '各', '譬喻', '人民', 'edu', '喽', 'secondly', 'mostly', '挨门挨户', 'useful', '分', '04', '乘胜', '所幸', '临到', '以至', 'gotten', 'themselves', "that's", 'indeed', '为止', '单单', '迫于', '从速', 'than', '总的说来', '充其极', 'kept', '接下来', '顶多', '随时', '第四版', '前面', '多年前', '尽心尽力', '而且', '那里', '二话不说', 'over', '几', '做到', '待', '蛮', '以上', '财新网', '莫若', 'also', '论', '正在', 'comes', 'cause', '其它', '不满', '基本上', 'com', '莫非', 'meanwhile', 'plus', 'tried', '出去', '此中', '但愿', '後面', 'must', "hadn't", '比', '毫无', '来说', '最后一页', '$', '真正', '定', '完全', '目前', 'such', 'before', '这么些', '局外', '交口', "it's", '有一堆', 'various', '正巧', 'whose', '记者', '心里', '固', '45', '有一群', '11', '起先', 'cant', '不是', '有一片', '因', '彻底', '诸', '似乎', '像', '普遍', '原来', '俺', '\\', '不论', '要求', '因着', '×××', 'ourselves', '较比', '好的', '后者', '/', 'tends', '{', '坚决', '℃', '从严', '结合', '你们', '哪', '概', '83', '几经', 'inasmuch', '略', '强烈', '多多', '怕', '八', 'because', '打从', 'each', 'at', '拿', '嘿嘿', '过', 'reasonably', '第十八', '当儿', '需要', '除外', '毋宁', '尽早', '首先', '59', '立地', '中间', '啊呀', 'thank', '然则', '连声', 'ie', '这点', '或是', '5', '⑨', '凭', '<φ', '显然', '哇', '第三卷', '这么点儿', '%', '缕缕', '那些', '屡次', '挨次', '强调', '加强', '附近', '32', '是不是', '!', '反之则', '0', 'anyway', '极', '有所', 'particular', '据称', '28', 'truly', "can't", '继之', 'inner', '那儿', '61', '亲手', '一直', '够瞧的', '方才', '适用', '那', '白', 'selves', '至', 'so', '凡是', 'certain', '等到', 'throughout', '比起', '总而言之', '的确', '同', '究竟', '却', 'let', '呆呆地', '皆可', 'whoever', '数/', 'need', '难道', '动不动', '任', '日益', '赶快', 'same', ';', '快要', 'maybe', '颇', '亲眼', '每天', 'really', '37', '嗬', '至若', '76', '以致', '甚至于', '由由', '87', '=(', '白白', '拦腰', 'keeps', '逢', 'best', '背地里', '前进', '更有效', '不妨', '为何', '可是', '→', '坚持', '转贴', 'course', 'moreover', 'actually', '第十名', '哪里', '不然', '主张', '竟而', 'one', 'although', '些', '归根结底', 'following', '不如', '有力', '另一方面', '最大', '据', '初', '{-', '每逢', '嘎登', '较', 'look', '跟', '不可抗拒', '格外', '第四单元', '’', "hasn't", '达旦', '应用', '直接', '啦', '也就是说', '当庭', '35', '以后', '出于', '有一方', '到', '从而', '绝', 'beforehand', '就地', "let's", '第三产业', '与此同时', '省得', '次第', '19', 'therein', '很多', '比方', '各式', 'theres', '使得', '一则通过', '第五卷', '累年', 'whenever', 'out', '就算', '趁早', '哦', '突出', 'well', '类如', '今', '<±', 're', '什么样', 'third', '更加', '多多少少', '动辄', '抽冷子', '少数', '2', 'inc', '切不可', '继而', 'accordingly', '嗡', '尽', 'what', '从无到有', '乘隙', '=-', '觉得', '他', '立马', '据实', '73', '将', '怪不得', 'gives', '乘', '到了儿', '简言之', '一时', '问题', '针对', 'appreciate', '各自', '既然', '[*]', '--', '深入', '腾', '归', '先後', '我是', 'even', '…………………………………………………③', '矣哉', '一下', '就是说', '必要', '第三类', '前此', '严格', '已经', '哈哈', '密切', '举行', '怎么办', '加入', "aren't", '不单', '向着', 'always', '2015', '以免', '啊', "they're", ' ]', '怎', '尽然', '认真', 'wish', '很少', "couldn't", '<Δ', 'except', '她们', '::', '第二把', '必然', '率然', '理该', '8', '不尽', '历', '较之', '莫', 'itself', 'immediate', '+ξ', '者', '隔日', 'by', '<λ', '从重', '本着', 'onto', 'had', "c'mon", '充其量', '岂非', 'certainly', 'hi', '每时每刻', '矣乎', '纯', '之', '常', '乘机', 'sent', '得出', '是', '各种', '往往', '其中', 'noone', '今后', '同一', '94', '个人', '39', '¥', 'under', '人家', '不外乎', '扑通', '战斗', 'able', '即令', '归齐', 'liked', '偶而', '将近', 'looks', 'came', '进去', '比及', '而后', '第四位', '直到', '穷年累月', '按说', '当时', '与', '说说', '33', '甫', '第十四', '二话没说', 'come', '除此', 'sup', '比如说', '要不然', '57', '按理', 'thence', '什么时候', '有问题么', 'f]', '尔尔', '以', 'hereby', 'necessary', '例如', '岂但', 'according', '如次', '即', '高低', '对方', '吗', '依靠', '-', '严重', '自个儿', '各地', '逐步', '考虑', '第二集', '有', '上面', 'sometimes', '怎麽', '大多数', '那么样', 'goes', '它是', '另方面', 'is', '不免', '绝对', '屡次三番', '顿时', '略加', '呢', '长期以来', '又一城', '必定', '不敢', '形成', '06', '嘛', '=″', '成年累月', '您们', '第三大', '尽可能', 'another', '设或', '连同', 'φ', '朝着', '犹自', 'latterly', '加以', '不足', 'or', '有效地', '老老实实', 'welcome', "wouldn't", '大抵', '表明', '90', '甚么', '第二关', '距', '大都', '78', '有点', '正值', 'she', '今天', '哪个', '不够', 'currently', ',', '此', '多', 'yet', '近来', '24', '默然', '突然', 'hers', '同样', "a's", '.', '&', '每个', '窃', 'am', '大', 'else', 'with', '话说', '最', '自', '遭到', '也', '或', 'taken', '0:2', '相对', '召唤', '12', '第二项', '另一个', '50', '才', '尽心竭力', '纵', '⑩', '一样', '相似', 'known', 'thats', 'definitely', '不', ',', '扩大', '介于', '第五部', 'a]', '的士高', '反而', '13', 'awfully', '另外', '及至', '++', '不仅仅是', '要不', '便于', '谁人', '她的', ')', '主要', '趁机', '63', '20', '38', '《', 'former', 'φ.', '且', '总的来看', '都', '它们的', '在', '而言', '略为', '注意', 'trying', '第二声', '来', '论说', 'eg', 'different', 'mainly', '第四集', '多亏', '最后一派', '▲', 'whither', '恰逢', 'having', '限制', '来得及', '积极', 'tell', 'ZZ', '此间', '容易', '倘若', '呸', '第四期', '它的', "they'll", '赶', '趁便', '除了', '’‘', 'shall', '近年来', 'looking', 'when', '有一批', '=☆', '56', '哪天', '三', '_', '忽地', '这会儿', '宁愿', '沿着', '所以', 'causes', '叮当', '嘘', 'instead', '及', '只是', '下列', '尤其', '纵然', '前者', 'ng昉', 'furthermore', '相应', '纯粹', 'went', 'yourselves', '为着', '内', 'been', 'this', '虽', '..', 'concerning', '一次', 'would', '此后', '第四届', '特殊', '只限', '于是', 'own', '再其次', '第三行', '㈧', 'formerly', '背靠背', "ain't", '有一对', 'two', '起', '打开天窗说亮话', '时候', '顺', 'three', '毕竟', 'anyways', '不能', '恰似', 'name', '60', '比照', 'think', '届时', '常常', '极端', '互', '反应', '七', '...', '嘻', '》),', '望', '除此之外', '凝神', '极了', '30', ')', ']', "he's", '获得', '无论', '<', '就要', '完成', '={', '如', '嘎嘎', '方便', '第五期', '又一村', '奇', '与其', '出来', '其实', '根据', '这一来', '从不', 'A', '凡', 'second', '趁着', 'respectively', '是什么意思', '然而', '分头', 'several', '不必', '决定', '藉以', 'otherwise', '普通', 'knows', '②', '+', '第十届', '今年', '一致', '嗳', 'sensible', '咦', '并且', '先后', 'provides', '其他', '赖以', '第二行', "it'll", '不由得', 'wherever', '这个', '不管', '起首', '起初', '<<', '从头', '哈', '基于', '迅速', '呕', '不得', '齐', 'sorry', '<', 'we', '最高', 'many', '不断', '没有', ')÷(1-', '当地', '有时', '凑巧', '倒不如', '有笑', 'yours', 'will', '此时', '就此', '看到', '一旦', '1.', '①', '巨大', 'eight', '连', '……', '前后', '96', '不能不', '且不说', 'him', '变成', '趁热', '只怕', '当即', '7', '没', '46', '故', '上去', '纵令', '从新', '焉', 'as', '上来', '一则', 'presumably', 'you', '除开', '地三鲜', '不迭', '%', '己', '比如', '=', '愤然', '能够', '当真', '分别', '逐渐', 'never', '被', ')、', '所谓', '大力', '不久', '就', '5', '年复一年', '断然', '碰巧', '当口儿', '综上所述', ',也', '过去', '用来', '恰如', '伟大', '难得', '}', '产生', '即使', '方能', '那会儿', '如此', '——', '第三日', '着呢', 'μ', '居然', '来着', '第三层', '造成', '得', '在于', '再', '得起', '然後', '大不了', 'want', '莫不然', '的话', '饱', '有没有', 'whereupon', 'yes', '恰好', '欢迎', '之後', '哎', '立即', '刚', 'indicate', '嗯', '”,', 'became', '第二款', 'upon', '95', 'appear', '您', '愿意', '$', '第四种', '有着', '有一起', 'quite', '———', '顷刻之间', 'its', '现代', '到底', '哎呀', 'regarding', 'Lex', '这边', '62', '不只', '适应', 'appropriate', '移动', '有关', '不力', '把', '何以', '08', '不尽然', "what's", '连日来', '小', '绝非', 'whole', '中小', '宣布', '借', '下', '谁', 'namely', 'clearly', '曾', '倒不如说', '会', '68', '月', '从早到晚', 'those', 'novel', '某个', '毫无保留地', '几番', '凭借', '大约', '取道', '不然的话', '大略', '29', '串行', '反倒', '兮', 'greetings', 'Δ', '不起', '啥', '有的是', '练习', '仅', '决不', '不外', '既是', 'lately', '自家', '︿', '云尔', '若非', '并没有', '切莫', '独', '依据', '哎哟', 'elsewhere', '从轻', '然', 'got', '成心', 'especially', '一方面', 'R.L.', 'et', 'contain', '喔唷', '三番两次', 'their', 'he', '保持', '常言道', '此处', 'however', '设若', '你是', '第', '于', '保管', '除去', '果然', 'hither', '策略地', '恰恰', '非徒', '一天', '不仅', '没奈何', '\u3000', '您是', 'herein', 'become', '不成', '以为', '公然', '据说', 'through', '第十一', '这么', '临', '属于', '转动', '总结', '具体说来', 'last', 'willing', '多次', '不要', "you're", '?', 'insofar', '(', '假使', 'allows', '呜呼', '并排', '纵使', '不亦乐乎', 'between', '经', '哩', '”', 'afterwards', "here's", '因为', '从小', '尔', '不料', '该当', '换句话说', 'help', '倘然', '么', '彻夜', 'either', '最后一题', '呵呵', '#', '5:0', '82', '共总', '隔夜', 'zz', '48', 'whence', '显著', '第五元素', '则甚', '呵', '连袂', 'unto', '一面', 'everybody', '09', '请勿', 'hopefully', '近', '矣', 'sometime', '一定', '所有', 'whether', '倍感', '又为什么', '`', 'ask', '反手', '还要', 'something', '对应', '反映', '69', '千万千万', '眨眼', 'nowhere', '不比', 'seen', '因了', 'in', '任务', '叮咚', '通过', 'could', '其一', '半', '哪年', '认为', '长线', '...................', '又及', 'whereafter', '进来', '最后一集', '⑥', '何时', '大多', '大批', '甭', 'better', '运用', 'somehow', '更重要的是', '管', 'followed', '依', '急匆匆', 'see', '这时', 'containing', '暗自', ' [', '广泛', '在下', '为此', '反倒是', 'all', '转变', '何必', '却不', '云云', '][', '儿', 'allow', 'seriously', "shouldn't", '恰巧', '本', '真是', '起头', '8', '第三回', 'becomes', '2', '弹指之间', 'after', '哼', '路经', '慢说', '他人', '日臻', '>', 'ignored', 'forth', '万一', '02', '何须', 'herself', '但是', '周围', '得了', '25', '甚且', '乎', 'thus', '的', 'latter', '不知不觉', '帮助', '其后', '呼啦', '故而', '大大', 'okay', '加上', '一一', '均', 'consider', '失去', '第三课', '66', '轰然', '开始', 'amongst', 'serious', '并不是', '^', 'of', '乘虚', '】', '第三声', '至今', '第二单元', 'they', '简而言之', '立时', '般的', 'and', 'therefore', '随', '最后一颗子弹', '你', '84', '有一道', 'though', '必', '朝', '以故', '全然', '处处', '常言说得好', '维持', '呗', 'viz', '瑟瑟', '『', '所', '清楚', 'thereby', "they've", '最后一班', 'lest', 'aside', '接着', 'fifth', '看上去', '不独', '反过来', '咧', '昂然', 'where', "i've", '孰知', '1', 'despite', '07', '大举', '第二', 'how', '粗', 'thru', '各位', '加之', '只要', 'every', '巴巴', 'etc', '第三遍', '譬如', '好', '单', '使', 'use', '梆', '此地', '除此而外', '99', '从事', '不至于', '~', '陡然', 'rd', 'for', '双方', 'it', '或者', '诸位', '可', 'were', '挨门逐户', 'done', '为什麽', 'doing', '可好', '何况', 'gets', '有意的', 'none', '哪样', '古来', '还有', '第三集', '好在', '全身心', '怎么', '》', '再者', '方面', 'are', '64', '决非', '极力', '男子', '无宁', '数', '不了', 'beside', ''', 'specifying', '一个', '第三张', '照', '从', '要不是', '刚巧', '又小', '正如', '再者说', '本人', '尽快', '只当', '不少', '如期', '16', '本地', '那样', '这里', 'if', '匆匆', '有一会了', '整个', 'others', '他的', '迄', '不日', '也罢', '18', '满', '何尝', '不若', '67', 'regardless', '喂', 'almost', 'example', '34', '截然', '第十三', '千万', '即是说', '"', 'th', '因此', '由', '别的', '也是', '年', '多多益善', '理应', '为了', '2.3%', '传说', '12%', '到头', '那边', '多少', '以外', '别管', '不可', '独自', 'unless', 'try', '//', '保险', '刚才', 'wants', '仍旧', '无法', '旁人', '有喜欢', '曾经', "'", '乒', '哪儿', 'among', '第四套', '更进一步', '行为', 'may', '哗', '、', '庶几', 'wonder', '引起', '用', '一些', '咚', '大致', '那般', '尚且', '最后一眼', '开外', '既...又', '这次', '社会主义', 'saw', 'nearly', '*', '理当', '......', '第五组', '只', '继续', '离', '实际', 'asking', '每当', '如下', '何', '给', '7', '一般', 'next', '什么', '下午', '亲身', '并无', '消息', '两者', 'mean', '豁然', '不管怎样', '尽管如此', '方', '更有甚者', '呐', '21', '避免', '23', '第四场', '毫无例外', '代替', '到目前为止', '…', '何处', '五', '另悉', '还', 'nevertheless', '‘', 'often', 'whereby', 'apart', '51', 'why', '明确', 'inward', 'myself', '以便', '另', '第五年', '某某', '相反', '更', '举凡', 'LI', '促进', '哟', '陈年', 'using', '孰料', '从中', '况且', '虽然', '屡', 'anyhow', '#', '日复一日', '良好', '有著', '啊哈', '第四声', '怎么样', 'while', '暗中', '先生', '第五单元', '那么', '经过', 'Ψ', '惟其', '相对而言', '不可开交', '大量', '老是', '不再', '日渐', '若', 'placed', '等等', '重大', '何乐而不为', '假如', '准备', "don't", '∈[', 'too', '∪φ∈', '连连', '不时', '无', '不消', '着', 'along', '17', '姑且', '哗啦', 'anywhere', 'A', '而外', '通常', 'changes', '刚好', '复杂', 'not', '大家', 'howbeit', '除非', '不经意', '从宽', '不常', '先不先', '传闻', 'overall', '比较', 'needs', '第三篇', '以後', '哪些', '放量', "where's", '第三项', '之类', '竟然', 'down', '甚至', '进步', '看看', '顷刻间', '来自', '传', 'first', '第四年', '虽说', 'brief', '~±', 'particularly', 'can', 'around', '你的', '阿', '应当', '才能', 'thorough', '错误', '挨着', '不巧', '巩固', '惯常', '第四册', '靠', '及其', '88', '--', '80', '第十二'}
三:通过gensim,加载预训练词向量,获取embedding_matrix
1:加载词向量
https://www.cnblogs.com/bill-h/p/14655224.html
使用下载好的训练好的词向量模型——/embeddings/sgns.weibo.bigram.bz2,
下载地址:https://pan.baidu.com/s/11PWBcvruXEDvKf2TiIXntg
from gensim.models import KeyedVectors
#读取词向量模型
def get_word2vec():
word2vec=KeyedVectors.load_word2vec_format("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\embeddings\\sgns.weibo.bigram.bz2",binary=False,unicode_errors="ignore")
#读取词向量文件sgns.weibo.bigram.bz2,使用越频繁的词就会越靠前。
return word2vec
word2vec=get_word2vec()
# 获取“词-索引”字典
word2vec.key_to_index
{',': 0,
'的': 1,
'。': 2,
'@': 3,
'!': 4,
'了': 5,
'、': 6,
':': 7,
'是': 8,
'一': 9,
'有': 10,
'】': 11,
'?': 12,
'在': 13,
'我': 14,
'你': 15,
'和': 16,
'个': 17,
'�': 18,
'不': 19,
'人': 20,
'“': 21,
'一个': 22,
'就': 23,
'都': 24,
'也': 25,
'我们': 26,
'要': 27,
'#': 28,
'好': 29,
'”': 30,
'啊': 31,
'这': 32,
'去': 33,
',': 34,
';': 35,
'很': 36,
'月': 37,
'还': 38,
'.': 39,
'1': 40,
'微博': 41,
'》': 42,
'上': 43,
'会': 44,
'说': 45,
'《': 46,
'~': 47,
'年': 48,
'吧': 49,
'小': 50,
'大': 51,
'天': 52,
'能': 53,
'-': 54,
'吃': 55,
'来': 56,
'自己': 57,
'让': 58,
'可以': 59,
'给': 60,
':': 61,
'到': 62,
'看': 63,
'就是': 64,
'最': 65,
'(': 66,
'为': 67,
'中国': 68,
'多': 69,
'与': 70,
'中': 71,
'北京': 72,
'这个': 73,
'[': 74,
'爱': 75,
'他': 76,
']': 77,
'做': 78,
'日': 79,
'【': 80,
'把': 81,
'想': 82,
'又': 83,
'没有': 84,
'2': 85,
'什么': 86,
'大家': 87,
'旅游': 88,
'被': 89,
'对': 90,
'吗': 91,
'过': 92,
'不是': 93,
'将': 94,
'之': 95,
'。。。': 96,
')': 97,
'呢': 98,
'3': 99,
'等': 100,
'着': 101,
'啦': 102,
'里': 103,
'酒店': 104,
'点': 105,
'太': 106,
'没': 107,
'但': 108,
'用': 109,
'今天': 110,
'两': 111,
'哦': 112,
'还是': 113,
'第': 114,
'……': 115,
'而': 116,
'三': 117,
'――': 118,
'次': 119,
'喜欢': 120,
'分享': 121,
'从': 122,
'后': 123,
'知道': 124,
'5': 125,
'种': 126,
'那': 127,
'得': 128,
'4': 129,
'一起': 130,
'这样': 131,
'��': 132,
'下': 133,
'您': 134,
'活动': 135,
'?': 136,
'(': 137,
'们': 138,
'你们': 139,
'现在': 140,
'生活': 141,
'时候': 142,
'请': 143,
'才': 144,
'时': 145,
'再': 146,
'世界': 147,
'更': 148,
'她': 149,
'地': 150,
'~': 151,
'开始': 152,
'第一': 153,
'10': 154,
'!': 155,
'还有': 156,
'可': 157,
'这里': 158,
'几': 159,
'它': 160,
'美食': 161,
'看到': 162,
'//': 163,
'已经': 164,
'因为': 165,
'时间': 166,
'这么': 167,
'6': 168,
'朋友': 169,
'如果': 170,
'只': 171,
'不要': 172,
'他们': 173,
'美': 174,
'谁': 175,
'很多': 176,
'7': 177,
'以': 178,
'...': 179,
'家': 180,
'转发': 181,
'张': 182,
'_': 183,
'关注': 184,
'元': 185,
'…': 186,
')': 187,
'8': 188,
'支持': 189,
'一下': 190,
'希望': 191,
'像': 192,
'怎么': 193,
'"': 194,
'需要': 195,
'走': 196,
'不能': 197,
'一定': 198,
'/': 199,
'上海': 200,
'觉得': 201,
'叫': 202,
'位': 203,
'比': 204,
'于': 205,
'自': 206,
'条': 207,
'老': 208,
'旅行': 209,
'却': 210,
'号': 211,
'店': 212,
'事': 213,
'9': 214,
'那么': 215,
'孩子': 216,
'新': 217,
'快': 218,
'真的': 219,
'体验': 220,
'跟': 221,
'转': 222,
'地方': 223,
'当': 224,
'心': 225,
'"': 226,
'并': 227,
'感觉': 228,
'推荐': 229,
'或': 230,
'照片': 231,
'找': 232,
'城市': 233,
'四': 234,
'不会': 235,
'幸福': 236,
'十': 237,
'应该': 238,
'哈哈': 239,
'博文': 240,
'~~': 241,
'真': 242,
'小时': 243,
'快乐': 244,
'不错': 245,
'工作': 246,
'呀': 247,
'一直': 248,
'精彩': 249,
'开心': 250,
'及': 251,
'一样': 252,
'手机': 253,
'最后': 254,
'图': 255,
'非常': 256,
'起来': 257,
'问题': 258,
'发现': 259,
'已': 260,
'前': 261,
'2013': 262,
'出': 263,
'名': 264,
'来自': 265,
'老师': 266,
'至': 267,
'所以': 268,
'不过': 269,
'新浪': 270,
'看看': 271,
'12': 272,
'行': 273,
'起': 274,
'香港': 275,
'早安': 276,
'拍': 277,
'如': 278,
'成为': 279,
'只有': 280,
'成': 281,
'30': 282,
'带': 283,
'][': 284,
'各种': 285,
'其实': 286,
'人生': 287,
'发布': 288,
'微': 289,
'带着': 290,
'参加': 291,
'但是': 292,
'么': 293,
'机会': 294,
'文化': 295,
'本': 296,
'送': 297,
'期待': 298,
'+': 299,
'儿': 300,
'第二': 301,
'片': 302,
'开': 303,
'买': 304,
'玩': 305,
'欢迎': 306,
'视频': 307,
'场': 308,
'图片': 309,
'获得': 310,
'美丽': 311,
'餐厅': 312,
'这些': 313,
'东西': 314,
'11': 315,
'感谢': 316,
'晚上': 317,
'正在': 318,
'花': 319,
'网': 320,
'摄影': 321,
'20': 322,
'参与': 323,
'半': 324,
'五': 325,
'那些': 326,
'发': 327,
'刚': 328,
'二': 329,
'七': 330,
'更多': 331,
'所有': 332,
'由': 333,
'只是': 334,
'成功': 335,
'晚': 336,
'明天': 337,
'水': 338,
'可爱': 339,
'中的': 340,
'喝': 341,
'%': 342,
'电影': 343,
'免费': 344,
'15': 345,
'周末': 346,
'听': 347,
'客户端': 348,
'该': 349,
'加': 350,
'每': 351,
'先': 352,
'味道': 353,
'分钟': 354,
'咖啡': 355,
'滴': 356,
'美国': 357,
'位于': 358,
'谢谢': 359,
'国际': 360,
'游': 361,
'梦想': 362,
'真是': 363,
'国家': 364,
'岁': 365,
'--': 366,
'菜': 367,
'那个': 368,
'特别': 369,
'good': 370,
'别人': 371,
'享受': 372,
'长': 373,
'每天': 374,
'为了': 375,
'打': 376,
'有人': 377,
'最好': 378,
'写': 379,
'达人': 380,
'哥': 381,
'女人': 382,
'设计': 383,
'其': 384,
'无': 385,
'服务': 386,
'一些': 387,
'公司': 388,
'故事': 389,
'出来': 390,
'生命': 391,
'台湾': 392,
'内': 393,
'必须': 394,
'官方': 395,
'如何': 396,
'这种': 397,
'创意': 398,
'可能': 399,
'件': 400,
'多少': 401,
'飞': 402,
'日本': 403,
'周': 404,
'别': 405,
'向': 406,
'健康': 407,
'今晚': 408,
'不同': 409,
'音乐': 410,
'事情': 411,
'选择': 412,
'终于': 413,
'一点': 414,
';': 415,
'只要': 416,
'座': 417,
'全': 418,
'风景': 419,
'奥迪': 420,
'站': 421,
'然后': 422,
'如此': 423,
'最大': 424,
'高': 425,
'继续': 426,
'好吃': 427,
'哈哈哈': 428,
'记得': 429,
'香': 430,
'版': 431,
'死': 432,
'总': 433,
'妈妈': 434,
'历史': 435,
'此': 436,
'准备': 437,
'产品': 438,
'哪': 439,
'帮': 440,
'永远': 441,
'―': 442,
'以后': 443,
'景区': 444,
'品牌': 445,
'时尚': 446,
'书': 447,
'路上': 448,
'现场': 449,
'加入': 450,
'刚刚': 451,
'全国': 452,
'问': 453,
'笑': 454,
'男人': 455,
'一切': 456,
'为什么': 457,
'2012': 458,
'阳光': 459,
'爱心': 460,
'子': 461,
'今年': 462,
'重要': 463,
'猫': 464,
'分': 465,
'微信': 466,
'・': 467,
'天下': 468,
'2014': 469,
'有点': 470,
'努力': 471,
'厦门': 472,
'岛': 473,
'哈': 474,
'生': 475,
'粉丝': 476,
'度': 477,
'超级': 478,
'美好': 479,
'王': 480,
'超': 481,
'夜': 482,
'最美': 483,
'各位': 484,
'主题': 485,
'求': 486,
'杯': 487,
'拥有': 488,
'经典': 489,
'车': 490,
'浪漫': 491,
'肉': 492,
'简单': 493,
'节目': 494,
'份': 495,
'A': 496,
'所': 497,
'企业': 498,
'真正': 499,
'红': 500,
'米': 501,
'而是': 502,
'全球': 503,
'三亚': 504,
'国内': 505,
'款': 506,
'吃货': 507,
'之旅': 508,
'虽然': 509,
'拍摄': 510,
'力': 511,
'山': 512,
'粉': 513,
'总是': 514,
'美味': 515,
'亲': 516,
'传统': 517,
'」': 518,
'学习': 519,
'黑': 520,
'以及': 521,
'适合': 522,
'六': 523,
'秀': 524,
'地址': 525,
'是不是': 526,
'管理': 527,
'路': 528,
'~~~': 529,
'未来': 530,
'好看': 531,
'梦': 532,
'之后': 533,
'直接': 534,
'100': 535,
'茶': 536,
'八': 537,
'爱情': 538,
'卫视': 539,
'少': 540,
'市场': 541,
'嘛': 542,
'越': 543,
'提供': 544,
'放': 545,
'穿': 546,
'则': 547,
'时代': 548,
'18': 549,
'间': 550,
'都会': 551,
'成都': 552,
'回家': 553,
'红包': 554,
'篇': 555,
'广州': 556,
'新闻': 557,
'女': 558,
'通过': 559,
'抢': 560,
'同学': 561,
'因': 562,
'酒': 563,
'「': 564,
'人们': 565,
'干': 566,
'才能': 567,
'摄影师': 568,
'回': 569,
'结果': 570,
'值得': 571,
'是否': 572,
'见': 573,
'之一': 574,
'感受': 575,
'进行': 576,
'赞': 577,
'使': 578,
'只能': 579,
'以为': 580,
'漂亮': 581,
'者': 582,
'面': 583,
'自然': 584,
'新鲜': 585,
'神': 586,
'而且': 587,
'发展': 588,
'媒体': 589,
'下午': 590,
'认为': 591,
'挖': 592,
'鱼': 593,
'注意': 594,
'美女': 595,
'游客': 596,
'入': 597,
'作品': 598,
'加油': 599,
'社会': 600,
'同时': 601,
'拿': 602,
'原来': 603,
'道': 604,
'天气': 605,
'容易': 606,
'话': 607,
'22': 608,
'约': 609,
'放入': 610,
'一般': 611,
'得到': 612,
'牛': 613,
'中心': 614,
'完美': 615,
'段': 616,
'手': 617,
'无法': 618,
'每日': 619,
'推出': 620,
'各': 621,
'环境': 622,
'快来': 623,
'锅': 624,
'字': 625,
'可是': 626,
'相信': 627,
'啥': 628,
'50': 629,
'男': 630,
'其中': 631,
'艺术': 632,
'晚安': 633,
'找到': 634,
'好友': 635,
'住': 636,
'目前': 637,
'祝': 638,
'之前': 639,
'雨': 640,
'居然': 641,
'童鞋': 642,
'或者': 643,
'句': 644,
'过去': 645,
'→': 646,
'作为': 647,
'编': 648,
'除了': 649,
'一家': 650,
'群': 651,
'系列': 652,
'温暖': 653,
'食': 654,
'00': 655,
'四川': 656,
'不用': 657,
'不到': 658,
'有些': 659,
'用户': 660,
'完全': 661,
'进入': 662,
'正': 663,
'风': 664,
'信息': 665,
'心情': 666,
'出现': 667,
'使用': 668,
'越来越': 669,
'部': 670,
'内容': 671,
'看着': 672,
'特色': 673,
'挺': 674,
'马上': 675,
'相声': 676,
'最近': 677,
'台': 678,
'升级': 679,
'哪里': 680,
'.': 681,
'营销': 682,
'报名': 683,
'私信': 684,
'即将': 685,
'电话': 686,
'木': 687,
'外': 688,
'杂志': 689,
'绝对': 690,
'坐': 691,
'发生': 692,
'君': 693,
'其他': 694,
'南京': 695,
'演员': 696,
'突然': 697,
'每个': 698,
'飞机': 699,
'声音': 700,
'���': 701,
'吃饭': 702,
'活': 703,
'嘻哈': 704,
'价格': 705,
'建筑': 706,
'卖': 707,
'V': 708,
'互联网': 709,
'泰国': 710,
'决定': 711,
'先生': 712,
'睡': 713,
'这次': 714,
'了解': 715,
'食物': 716,
'好好': 717,
'油': 718,
'靠': 719,
'告诉': 720,
'若': 721,
'名字': 722,
'对于': 723,
'好像': 724,
'法国': 725,
'朋友们': 726,
'坚持': 727,
'口': 728,
'能够': 729,
'学': 730,
'身边': 731,
'方式': 732,
'连': 733,
'带来': 734,
'日子': 735,
'比较': 736,
'太多': 737,
'苹果': 738,
'老板': 739,
'时光': 740,
'里面': 741,
'个人': 742,
'广告': 743,
'任何': 744,
'感动': 745,
'结束': 746,
'回来': 747,
'炒': 748,
'近': 749,
'包': 750,
'人民': 751,
'另': 752,
'早': 753,
'称': 754,
'14': 755,
'曾': 756,
'空间': 757,
'确实': 758,
'俺': 759,
'祝福': 760,
'著名': 761,
'杭州': 762,
'今日': 763,
'人家': 764,
'餐饮': 765,
'更好': 766,
'帮助': 767,
'2011': 768,
'曾经': 769,
'味': 770,
'团队': 771,
'且': 772,
'边': 773,
'韩国': 774,
'改变': 775,
'妈': 776,
'影响': 777,
'最佳': 778,
'19': 779,
'想要': 780,
'届': 781,
'丰富': 782,
'换': 783,
'同': 784,
'价值': 785,
'姐': 786,
'出发': 787,
'下载': 788,
'便': 789,
'赶紧': 790,
'钱': 791,
'16': 792,
'收到': 793,
'主要': 794,
'公里': 795,
'达': 796,
'13': 797,
'必': 798,
'新疆': 799,
'旅': 800,
'正式': 801,
'24': 802,
'建议': 803,
'代表': 804,
'专业': 805,
'寻找': 806,
'不仅': 807,
'些': 808,
'自由': 809,
'80': 810,
'旅游局': 811,
'年前': 812,
'声': 813,
'集团': 814,
'汽车': 815,
'城': 816,
'海': 817,
'网络': 818,
'肯定': 819,
'热': 820,
'新的': 821,
'身体': 822,
'21': 823,
'品': 824,
'即可': 825,
'特': 826,
'温泉': 827,
'计划': 828,
'笑哈哈': 829,
'春节': 830,
'昨天': 831,
'云南': 832,
'遇到': 833,
'25': 834,
'天天': 835,
'首': 836,
'头': 837,
'碗': 838,
'也许': 839,
'项目': 840,
'精神': 841,
'节': 842,
'颗': 843,
'看来': 844,
'好多': 845,
'表示': 846,
'九': 847,
'优惠': 848,
'错过': 849,
'度假': 850,
'深圳': 851,
'期': 852,
'配': 853,
'很好': 854,
'B': 855,
'记者': 856,
'卡': 857,
'天津': 858,
'不想': 859,
'意大利': 860,
'网站': 861,
'恭喜': 862,
'团': 863,
'安全': 864,
'婚礼': 865,
'功能': 866,
'不好': 867,
'火': 868,
'煮': 869,
'型': 870,
'尽': 871,
'当然': 872,
'评论': 873,
'机场': 874,
'雪': 875,
'画': 876,
'变成': 877,
'行业': 878,
'就要': 879,
'政府': 880,
'攻略': 881,
'哟': 882,
'处': 883,
'季': 884,
'据': 885,
'游戏': 886,
'还要': 887,
'讲': 888,
'整个': 889,
'充满': 890,
'想起': 891,
'能力': 892,
'真心': 893,
'员工': 894,
'风格': 895,
'泡': 896,
'欢乐': 897,
'要求': 898,
'之间': 899,
'不如': 900,
'实在': 901,
'17': 902,
'不了': 903,
'一路': 904,
'火锅': 905,
'美景': 906,
'英国': 907,
'盐': 908,
'移动': 909,
'享': 910,
'关于': 911,
'再次': 912,
'不少': 913,
'乐': 914,
'数据': 915,
'当年': 916,
'餐': 917,
'早上': 918,
'李': 919,
'饭': 920,
'亲们': 921,
'云': 922,
'平台': 923,
'青年': 924,
'唱': 925,
'青春': 926,
'到底': 927,
'制作': 928,
'估计': 929,
'组': 930,
'呵呵': 931,
'依然': 932,
'经常': 933,
'想去': 934,
'变': 935,
'早餐': 936,
'惊喜': 937,
'丝': 938,
'式': 939,
'甚至': 940,
'包括': 941,
'蛋糕': 942,
'保护': 943,
'方法': 944,
'看见': 945,
'圣诞': 946,
'点击': 947,
'海南': 948,
'西藏': 949,
'宝宝': 950,
'话题': 951,
'来到': 952,
'技术': 953,
'愿': 954,
'生日': 955,
'选': 956,
'周年': 957,
'汤': 958,
'德国': 959,
'领导': 960,
'白': 961,
'大师': 962,
'搭配': 963,
'一生': 964,
'光': 965,
'经历': 966,
'票': 967,
'来说': 968,
'夏天': 969,
'楼': 970,
'未': 971,
'心里': 972,
'南': 973,
'仅': 974,
'春天': 975,
'姑娘': 976,
'感': 977,
'鸡': 978,
'会员': 979,
'明星': 980,
'层': 981,
'包袱': 982,
'不管': 983,
'搞': 984,
'电视': 985,
'左右': 986,
'拉': 987,
'完': 988,
'某': 989,
'最爱': 990,
'下次': 991,
'父母': 992,
'竟然': 993,
'多年': 994,
'过来': 995,
'东方': 996,
'认识': 997,
'合作': 998,
'不断': 999,
...}
# 查询词语“地球”对应的词向量
word2vec.word_vec('地球')
<ipython-input-53-68063290bfef>:2: DeprecationWarning: Call to deprecated `word_vec` (Use get_vector instead).
word2vec.word_vec('地球')
array([ 0.594169, -0.568692, -0.776196, -0.324364, 0.016311, -0.225051,
0.420986, 0.43116 , 0.428265, -0.256983, 0.370124, 0.305862,
-0.020324, 0.243007, 0.234712, -0.614161, -0.140672, 0.695551,
0.083963, 0.689722, 0.233259, 0.152571, 1.024671, 0.139783,
0.202395, 0.152258, -0.26312 , 0.102958, 0.248036, 0.131189,
0.275885, 0.082996, 0.491571, 0.225018, 0.266493, -0.420912,
-0.471418, 0.809017, 0.141163, 1.130004, -0.261278, -0.856712,
-0.400395, 0.198048, 0.05645 , 0.678296, 0.2836 , -0.130534,
0.805508, 0.093283, -0.646966, 0.529736, 0.779232, 0.551138,
0.174808, 0.247027, -0.373688, -0.576475, -0.325732, -0.082459,
-0.47632 , -0.229266, 2.085353, 0.592716, 0.176334, 0.497692,
0.649653, 0.144183, 0.703805, 0.034919, 0.748792, 0.085221,
0.473858, -0.401072, -0.947229, 0.576858, 0.315247, -0.640268,
0.342379, -1.558704, 0.086163, 0.334141, -0.820931, -0.971747,
0.265167, 0.501708, -0.44508 , -0.201019, 1.137126, -0.524235,
0.358898, -0.225462, 0.265465, -0.206449, -1.366041, 0.199185,
0.268479, -0.708933, -0.317492, 0.005376, 0.459616, -0.052285,
-0.337994, -1.220452, 0.09167 , 0.315118, -0.063763, -0.426036,
0.205738, 0.323416, 0.57625 , -0.164826, -0.525151, -0.1566 ,
-0.518378, 0.313611, 0.06549 , 0.194561, 0.198763, -0.622947,
0.689087, 0.152702, -0.230708, 0.393303, 0.288658, -0.469481,
0.101568, -0.559899, -0.239013, 0.04444 , -0.512653, -0.191998,
-0.154456, 1.33964 , 0.32832 , 0.982129, -0.171914, 0.494866,
1.032956, 0.24044 , -0.905777, -0.272647, -0.161794, -0.211096,
-0.920188, 0.985234, -0.044058, -0.38891 , 0.681905, -0.400282,
-0.500766, -0.127555, 0.307823, 0.694935, -0.512435, -0.901273,
0.641044, -0.16945 , 0.632315, 0.272749, -0.694152, 0.686993,
0.262837, 0.59613 , 0.090302, 1.860848, -0.166851, 0.276754,
-0.555203, 0.697493, 0.936634, 0.193718, 0.196608, 0.073793,
0.082054, 0.284785, -0.812682, -0.204861, 0.824906, -0.676902,
-0.854978, -0.909203, -0.280592, -0.480879, -0.217995, -0.256043,
0.517293, 0.201248, -0.565574, 0.360344, 0.181837, -0.133435,
-0.334987, 0.040227, 0.501909, 0.191659, 0.209178, 0.099721,
-0.124362, 0.848287, -0.029316, 0.113569, 0.747785, 0.206726,
0.339223, 0.1414 , -0.828587, 0.846909, -0.486901, 0.042668,
-0.349429, -0.0491 , -0.188621, 0.628018, 0.787592, 0.619018,
-0.729359, 0.633972, 0.678034, -0.252666, 0.008 , -0.2895 ,
0.995281, -0.099295, 0.846986, 0.657285, 0.736554, 0.796017,
-0.118278, -0.671056, -0.684588, 0.024951, 0.084893, 1.330889,
-0.907356, -0.469333, -0.937091, -0.621381, 0.037569, 1.131863,
-0.082662, -0.200744, 0.316928, -0.207599, 0.280597, -0.627365,
1.029001, 0.589092, 0.556169, 0.513512, -0.441827, 0.05047 ,
-0.215281, -1.183606, -0.011877, -0.588229, -0.492906, 0.49306 ,
0.377719, 0.569881, -0.647512, 0.328652, -0.105831, 0.318817,
-0.024814, -0.292444, -0.298455, -0.460332, 0.08468 , -0.303269,
-0.0561 , -0.369285, 0.584729, -0.051919, 0.328322, -0.826165,
-0.872997, -1.262497, 0.06934 , -0.400124, -0.969265, -0.209392,
-0.524788, 0.12054 , -0.275462, 0.336152, -0.465911, 0.601564,
1.018939, 0.239033, 0.63644 , 1.337305, 0.22037 , 0.3295 ,
-0.219874, 0.385543, -0.417511, 0.481287, -1.519231, 0.074622],
dtype=float32)
# 查询与“地球”最相近的词
word2vec.most_similar('地球')
[('自转', 0.5498958230018616),
('@WWF', 0.5482718348503113),
('世界自然基金会', 0.5304360389709473),
('月球', 0.5204099416732788),
('太阳系', 0.5103502869606018),
('熄灯', 0.509930431842804),
('星球', 0.5082988142967224),
('8.214', 0.5052586793899536),
('地球日', 0.4897368550300598),
('小行星', 0.47547173500061035)]
2:获取embedding_matrix
通过以上操作我们可以得到微博文本的词向量表示。每一条谣言为一条样本数据。通过分词和去除停用词得到每一
条样本的文本特征,再使用已训练好的词向量得到上述谣言文本特征词的向量表示。
本节用以构造可以输入到机器学习模型与深度学习模型的样本矩阵。
每一条样本为50000*300维的矩阵。每一个词表示为300维的向量。50000为微博词汇库里使用频率前50000个词汇。
若某条数据有7个词汇,则该数据为50000*300维的矩阵,且只有7行非0,其余元素全为0.显然样本数据高度稀疏。
举例:
非谣:1 #星娱星乐#一个朋友和一个送外卖的帅哥之间的故事。温馨有爱,令人感动。
提取文本特征:星娱星乐 朋友 送 外卖 帅哥 故事 温馨 爱 感动,共9个文本特征词汇
由于词汇“星娱星乐”不属于频率为前50000词汇,去除该文本。剩下8个文本特征。
该样本为50000*300维的矩阵,其中只有词汇“朋友 送 外卖 帅哥 故事 温馨 爱 感动”对应的行向量非0,其余词
向量变为0.