PCA_共现窗口矩阵实战
共现窗口矩阵
共现窗口矩阵是基于词语在文本中的共现关系构建的矩阵。具体而言,对于一个给定的词语,我们考察其在一定窗口范围内与其他词语的共现次数,从而构建词语间的共现矩阵。该矩阵可以反映词语间的上下文关系。
构建共现窗口矩阵的步骤
1.文本预处理:对文本进行分词、去除停用词等预处理操作。
2.定义窗口大小:设定一个窗口大小,例如窗口大小为 2,表示考察词语前后各 2 个词的共现关系。
3.统计共现次数:遍历文本,根据窗口大小统计每个词与其窗口内其他词的共现次数,构建共现矩阵。
import jieba
import numpy as np
import collections
from sklearn.decomposition import PCA
datapath = 'data/data.txt'
Fulltext_cut_content = []
Single_text_content = ''
with open(datapath,"r",encoding='UTF-8') as f:
for centence in f.readlines():
centence = centence.strip()+'。'
Single_text_content += centence
text = jieba.lcut(Single_text_content) #分词
text
['1',
',',
'很快',
',',
'好吃',
',',
'味道',
'足',
',',
'量',
'大',
'。',
'。',
'1',
',',
'没有',
'送水',
'没有',
'送水',
'没有',
'送水',
'。',
'。',
'1',
',',
'非常',
'快',
',',
'态度',
'好',
'。',
'。',
'。',
'1',
',',
'方便',
',',
'快捷',
',',
'味道',
'可口',
',',
'快',
'递给',
'力',
'。',
'。',
'1',
',',
'菜',
'味道',
'很棒',
'!',
'送餐',
'很',
'及时',
'!',
'。',
'。',
'1',
',',
'今天',
'师傅',
'是不是',
'手抖',
'了',
',',
'微辣',
'格外',
'辣',
'!',
'。',
'。',
'1',
',',
'"',
'送餐',
'快',
',',
'态度',
'也',
'特别',
'好',
',',
'辛苦',
'啦',
'谢谢',
'"',
'。',
'。',
'1',
',',
'超级',
'快',
'就',
'送到',
'了',
',',
'这么',
'冷',
'的',
'天气',
'骑士',
'们',
'辛苦',
'了',
'。',
'谢谢你们',
'。',
'麻辣',
'香锅',
'依然',
'很',
'好吃',
'。',
'。',
'。',
'1',
',',
'经过',
'上次',
'晚',
'了',
'2',
'小时',
',',
'这次',
'超级',
'快',
',',
'20',
'分钟',
'就',
'送到',
'了',
'…',
'…',
'。',
'。',
'1',
',',
'最后',
'五分钟',
'订',
'的',
',',
'卖家',
'特别',
'好',
'接单',
'了',
',',
'谢谢',
'。',
'。',
'。',
'1',
',',
'量',
'大',
',',
'好吃',
',',
'每次',
'点',
'的',
'都',
'够吃',
'两次',
'。',
'。',
'1',
',',
'挺辣',
'的',
',',
'吃',
'着',
'还',
'可以',
'吧',
'。',
'。',
'1',
',',
'味道',
'好',
',',
'送餐',
'快',
',',
'分量',
'足',
'。',
'。',
'1',
',',
'量足',
',',
'好吃',
',',
'送餐',
'也',
'快',
'。',
'。',
'1',
',',
'特别',
'好吃',
',',
'量',
'特大',
',',
'而且',
'送餐',
'特别',
'快',
',',
'特别',
'特别',
'棒',
'。',
'。',
'1',
',',
'口感',
'好',
'的',
'很',
',',
'速度',
'快',
'!',
'。',
'。',
'1',
',',
'相当',
'好吃',
'的',
'香锅',
',',
'分量',
'够',
'足',
',',
'味道',
'也',
'没',
'的',
'说',
'。',
'。',
'。',
'1',
',',
'好吃',
'!',
'速度',
'!',
'包装',
'也',
'有',
'品质',
',',
'不',
'出',
'家门',
'就',
'能',
'吃',
'到',
'餐厅',
'的',
'味道',
'!',
'。',
'。',
'1',
',',
'味道',
'好极',
'啦',
',',
'送餐',
'很快',
'师傅',
'辛苦',
'啦',
'。',
'。',
'1',
',',
'量',
'大',
'味道',
'好',
',',
'送餐',
'师傅',
'都',
'很',
'好',
'。',
'。',
'1',
',',
'送餐',
'师傅',
'很',
'好',
',',
'味道',
'好极',
'啦',
'。',
'。',
'1',
',',
'送货',
'速度',
'很快',
',',
'一直',
'定',
'这家',
',',
'赞',
'。',
'。',
'1',
',',
'很',
'方便',
',',
'很快',
'就',
'送到',
'了',
'。',
'棒',
'。',
'。',
'1',
',',
'好吃',
',',
'总点',
',',
'这么',
'多够',
'五个',
'人',
'吃',
'。',
'送',
'的',
'很快',
'。',
'。',
'。',
'1',
',',
'"',
'很香',
'很',
'美味',
',',
'下次',
'还会',
'光顾',
'"',
'。',
'。',
'1',
',',
'"',
'送餐',
'特别',
'快',
',',
'态度',
'也好',
',',
'辛苦',
'啦',
'"',
'。',
'。',
'1',
',',
'服务',
'很',
'不错',
',',
'送到',
'的',
'很快',
',',
'半小时',
'不到',
'就',
'送来',
'了',
'。',
'。',
'1',
',',
'速度',
'很快',
',',
'大雾',
'霾',
'天',
'外卖',
'骑士',
'态度',
'都',
'很',
'好',
',',
'赞赞赞',
'!',
'。',
'。',
'1',
',',
'味道',
'正宗',
',',
'量',
'大',
'内容',
'多',
'。',
'。',
'1',
',',
'"',
'送餐',
'非常',
'快',
',',
'态度',
'特别',
'好',
',',
'谢谢',
'"',
'。',
'。',
'1',
',',
'又快又好',
',',
'量足',
',',
'经常',
'吃',
'。',
'。',
'1',
',',
'好大',
'一盆',
'点',
'了',
'7',
'个',
'小',
'份量',
'足',
'。',
'。',
'1',
',',
'配送',
'人员',
'态度',
'好',
',',
'速度',
'快',
'!',
'。',
'。',
'1',
',',
'"',
'在',
'这种',
'天气',
'里',
'感谢',
'送',
'餐员',
'的',
'辛苦',
'服务',
',',
'谢谢',
'啦',
'"',
'。',
'。',
'1',
',',
'"',
'送餐',
'特别',
'快',
',',
'态度',
'好',
',',
'非常感谢',
'"',
'。',
'。',
'1',
',',
'送',
'的',
'非常',
'快',
',',
'包装',
'好',
'!',
'谢谢',
'师傅',
'!',
'。',
'。',
'1',
',',
'附近',
'最',
'好吃',
'的',
'麻辣',
'香锅',
',',
'不',
'开玩笑',
'的',
'。',
'。',
'1',
',',
'味道',
'不错',
',',
'份量',
'很足',
',',
'建议',
'都',
'点小份',
'。',
'红薯',
'超',
'好吃',
'就是',
'太烂',
'了',
'容易',
'碎',
'。',
'。',
'1',
',',
'还',
'不错',
',',
'就是',
'稍微',
'咸了',
'点',
'。',
'。',
'1',
',',
'这么晚',
'辛苦',
'外卖',
'小哥',
'了',
'。',
'。',
'1',
',',
'超级',
'快',
'就',
'送到',
'了',
',',
'谢谢',
'骑士',
'很快',
',',
'感谢',
'骑士',
'这种',
'天气',
'还',
'在',
'工作',
'!',
'。',
'。',
'1',
',',
'非常',
'好吃',
',',
'味道',
'也',
'很',
'香',
',',
'推荐',
'!',
'。',
'。',
'1',
',',
'"',
'很',
'好吃',
',',
'速递',
'快',
',',
'下次',
'继续',
'选择',
'"',
'。',
'。',
'1',
',',
'很快',
',',
'特别',
'好',
'。',
'。',
'1',
',',
'太麻',
'了',
',',
'青笋',
'有点',
'小',
',',
'米饭',
'给',
'的',
'也',
'不',
'多',
',',
'土豆片',
'都',
'碎',
'了',
',',
'找',
'不到',
'了',
'。',
'。',
'1',
',',
'点',
'了',
'太',
'多次',
'了',
',',
'味道',
'很香',
'。',
'。',
'1',
',',
'"',
'态度',
'很',
'好',
',',
'地址',
'填错',
'了',
'还是',
'给',
'我',
'跑',
'了',
'一趟',
',',
'没有',
'表现',
'出',
'不',
'愿意',
'的',
'样子',
',',
'为了',
'这个',
'快递',
'员',
',',
'我',
'写',
'了',
'评论',
'"',
'。',
'。',
'1',
',',
'快递',
'小哥',
'很快',
'就',
'送到',
'了',
'!',
'赞',
'!',
'水煮',
'牛肉',
'肉质',
'鲜嫩',
',',
'辣',
'的',
'恰到好处',
',',
'也',
'很',
'入味',
'。',
'不错',
',',
'挺好吃',
'的',
'!',
'。',
'。',
'1',
',',
'"',
'口味',
',',
'不错',
',',
'干净',
'味道',
'好',
',',
'送货员',
'服务',
'非常',
'好',
'!',
'"',
'。',
'。',
'1',
',',
'"',
'送餐',
'特别',
'快',
',',
'态度',
'好',
',',
'辛苦',
'啦',
',',
'谢谢',
'"',
'。',
'。',
'1',
',',
'"',
'送餐',
'快',
',',
'送餐',
'大哥',
'态度',
'好',
',',
'辛苦',
'啦',
'"',
'。',
'。',
'1',
',',
'"',
'送餐',
'很快',
',',
'态度',
'也',
'很',
'好',
',',
'谢谢',
'"',
'。',
'。',
'1',
',',
'挺不错',
'的',
'!',
'。',
'。',
'1',
',',
'快递',
'大叔',
'人',
'特别',
'好',
'。',
'就是',
'百度',
'外卖',
'现在',
'连',
'个',
'优惠',
'都',
'那个',
'少',
',',
'真',
'要',
'投奔',
'饿',
'了',
'么',
'了',
'。',
'。',
'。',
'。',
'。',
'。',
'1',
',',
'感觉',
'没有',
'在',
'店里',
'的',
'好吃',
',',
'感谢',
'送餐',
'师傅',
'我们',
'家',
'六楼',
'没',
'电梯',
'还',
'得',
'爬楼梯',
'。',
'。',
'1',
',',
'菜场',
'好',
',',
'挺好吃',
'的',
'。',
'。',
'1',
',',
'快递',
'小哥',
'辛苦',
'了',
'!',
'下雨天',
'的',
'真是',
'辛苦',
'您',
'了',
'!',
'给',
'你',
'点赞',
'!',
'。',
'。',
'1',
',',
'相当',
'好',
'!',
'送餐',
'快',
',',
'一大',
'盒子',
'超',
'好吃',
'!',
'。',
'。',
'1',
',',
'"',
'送餐',
'特别',
'快',
',',
'送',
'餐员',
'态度',
'也',
'特别',
'好',
'"',
'。',
'。',
'1',
',',
'速度',
'快',
',',
'量',
'多',
',',
'很香',
'。',
'。',
'1',
',',
'味道',
'很',
'正点',
'!',
'餐具',
'很',
'好',
'用',
'!',
'送餐',
'速度',
'快',
'!',
'。',
'。',
'1',
',',
'鱼',
'豆腐',
'有',
'异味',
'儿',
',',
'有点',
'腻',
'。',
'。',
'。',
'1',
',',
'非常',
'好',
'!',
'第一次',
'用',
'百度',
'外卖',
',',
'送餐',
'很快',
',',
'快递',
'小哥',
...]
stopwordspath = 'stop.txt'
stopwords = []
with open(stopwordspath, 'r', encoding='UTF-8') as f:
for word in f.readlines():
stopwords.append(word.split())
stopwords
[['!'],
['"'],
['#'],
['$'],
['%'],
['&'],
["'"],
['('],
[')'],
['*'],
['+'],
[','],
['-'],
['--'],
['.'],
['..'],
['...'],
['......'],
['...................'],
['./'],
['.一'],
['记者'],
['数'],
['年'],
['月'],
['日'],
['时'],
['分'],
['秒'],
['/'],
['//'],
['0'],
['1'],
['2'],
['3'],
['4'],
['5'],
['6'],
['7'],
['8'],
['9'],
[':'],
['://'],
['::'],
[';'],
['<'],
['='],
['>'],
['>>'],
['?'],
['@'],
['A'],
['Lex'],
['['],
['\\'],
[']'],
['【'],
['】'],
['^'],
['_'],
['`'],
['exp'],
['sub'],
['sup'],
['|'],
['}'],
['~'],
['~~~~'],
['·'],
['×'],
['×××'],
['Δ'],
['Ψ'],
['γ'],
['μ'],
['φ'],
['φ.'],
['В'],
['—'],
['——'],
['———'],
['‘'],
['’'],
['’‘'],
['“'],
['”'],
['”,'],
['…'],
['……'],
['…………………………………………………③'],
['′∈'],
['′|'],
['℃'],
['Ⅲ'],
['↑'],
['→'],
['∈['],
['∪φ∈'],
['≈'],
['①'],
['②'],
['②c'],
['③'],
['③]'],
['④'],
['⑤'],
['⑥'],
['⑦'],
['⑧'],
['⑨'],
['⑩'],
['──'],
['■'],
['▲'],
[],
['、'],
['。'],
['〈'],
['〉'],
['《'],
['》'],
['》),'],
['」'],
['『'],
['』'],
['〔'],
['〕'],
['〕〔'],
['㈧'],
['一'],
['一.'],
['一一'],
['一下'],
['一个'],
['一些'],
['一何'],
['一切'],
['一则'],
['一则通过'],
['一天'],
['一定'],
['一方面'],
['一旦'],
['一时'],
['一来'],
['一样'],
['一次'],
['一片'],
['一番'],
['一直'],
['一致'],
['一般'],
['一起'],
['一转眼'],
['一边'],
['一面'],
['七'],
['万一'],
['三'],
['三天两头'],
['三番两次'],
['三番五次'],
['上'],
['上下'],
['上升'],
['上去'],
['上来'],
['上述'],
['上面'],
['下'],
['下列'],
['下去'],
['下来'],
['下面'],
['不'],
['不一'],
['不下'],
['不久'],
['不了'],
['不亦乐乎'],
['不仅'],
['不仅...而且'],
['不仅仅'],
['不仅仅是'],
['不会'],
['不但'],
['不但...而且'],
['不光'],
['不免'],
['不再'],
['不力'],
['不单'],
['不变'],
['不只'],
['不可'],
['不可开交'],
['不可抗拒'],
['不同'],
['不外'],
['不外乎'],
['不够'],
['不大'],
['不如'],
['不妨'],
['不定'],
['不对'],
['不少'],
['不尽'],
['不尽然'],
['不巧'],
['不已'],
['不常'],
['不得'],
['不得不'],
['不得了'],
['不得已'],
['不必'],
['不怎么'],
['不怕'],
['不惟'],
['不成'],
['不拘'],
['不择手段'],
['不敢'],
['不料'],
['不断'],
['不日'],
['不时'],
['不是'],
['不曾'],
['不止'],
['不止一次'],
['不比'],
['不消'],
['不满'],
['不然'],
['不然的话'],
['不特'],
['不独'],
['不由得'],
['不知不觉'],
['不管'],
['不管怎样'],
['不经意'],
['不胜'],
['不能'],
['不能不'],
['不至于'],
['不若'],
['不要'],
['不论'],
['不起'],
['不足'],
['不过'],
['不迭'],
['不问'],
['不限'],
['与'],
['与其'],
['与其说'],
['与否'],
['与此同时'],
['专门'],
['且'],
['且不说'],
['且说'],
['两者'],
['严格'],
['严重'],
['个'],
['个人'],
['个别'],
['中小'],
['中间'],
['丰富'],
['串行'],
['临'],
['临到'],
['为'],
['为主'],
['为了'],
['为什么'],
['为什麽'],
['为何'],
['为止'],
['为此'],
['为着'],
['主张'],
['主要'],
['举凡'],
['举行'],
['乃'],
['乃至'],
['乃至于'],
['么'],
['之'],
['之一'],
['之前'],
['之后'],
['之後'],
['之所以'],
['之类'],
['乌乎'],
['乎'],
['乒'],
['乘'],
['乘势'],
['乘机'],
['乘胜'],
['乘虚'],
['乘隙'],
['九'],
['也'],
['也好'],
['也就是说'],
['也是'],
['也罢'],
['了'],
['了解'],
['争取'],
['二'],
['二来'],
['二话不说'],
['二话没说'],
['于'],
['于是'],
['于是乎'],
['云云'],
['云尔'],
['互'],
['互相'],
['五'],
['些'],
['交口'],
['亦'],
['产生'],
['亲口'],
['亲手'],
['亲眼'],
['亲自'],
['亲身'],
['人'],
['人人'],
['人们'],
['人家'],
['人民'],
['什么'],
['什么样'],
['什麽'],
['仅'],
['仅仅'],
['今'],
['今后'],
['今天'],
['今年'],
['今後'],
['介于'],
['仍'],
['仍旧'],
['仍然'],
['从'],
['从不'],
['从严'],
['从中'],
['从事'],
['从今以后'],
['从优'],
['从古到今'],
['从古至今'],
['从头'],
['从宽'],
['从小'],
['从新'],
['从无到有'],
['从早到晚'],
['从未'],
['从来'],
['从此'],
['从此以后'],
['从而'],
['从轻'],
['从速'],
['从重'],
['他'],
['他人'],
['他们'],
['他是'],
['他的'],
['代替'],
['以'],
['以上'],
['以下'],
['以为'],
['以便'],
['以免'],
['以前'],
['以及'],
['以后'],
['以外'],
['以後'],
['以故'],
['以期'],
['以来'],
['以至'],
['以至于'],
['以致'],
['们'],
['任'],
['任何'],
['任凭'],
['任务'],
['企图'],
['伙同'],
['会'],
['伟大'],
['传'],
['传说'],
['传闻'],
['似乎'],
['似的'],
['但'],
['但凡'],
['但愿'],
['但是'],
['何'],
['何乐而不为'],
['何以'],
['何况'],
['何处'],
['何妨'],
['何尝'],
['何必'],
['何时'],
['何止'],
['何苦'],
['何须'],
['余外'],
['作为'],
['你'],
['你们'],
['你是'],
['你的'],
['使'],
['使得'],
['使用'],
['例如'],
['依'],
['依据'],
['依照'],
['依靠'],
['便'],
['便于'],
['促进'],
['保持'],
['保管'],
['保险'],
['俺'],
['俺们'],
['倍加'],
['倍感'],
['倒不如'],
['倒不如说'],
['倒是'],
['倘'],
['倘使'],
['倘或'],
['倘然'],
['倘若'],
['借'],
['借以'],
['借此'],
['假使'],
['假如'],
['假若'],
['偏偏'],
['做到'],
['偶尔'],
['偶而'],
['傥然'],
['像'],
['儿'],
['允许'],
['元/吨'],
['充其极'],
['充其量'],
['充分'],
['先不先'],
['先后'],
['先後'],
['先生'],
['光'],
['光是'],
['全体'],
['全力'],
['全年'],
['全然'],
['全身心'],
['全部'],
['全都'],
['全面'],
['八'],
['八成'],
['公然'],
['六'],
['兮'],
['共'],
['共同'],
['共总'],
['关于'],
['其'],
['其一'],
['其中'],
['其二'],
['其他'],
['其余'],
['其后'],
['其它'],
['其实'],
['其次'],
['具体'],
['具体地说'],
['具体来说'],
['具体说来'],
['具有'],
['兼之'],
['内'],
['再'],
['再其次'],
['再则'],
['再有'],
['再次'],
['再者'],
['再者说'],
['再说'],
['冒'],
['冲'],
['决不'],
['决定'],
['决非'],
['况且'],
['准备'],
['凑巧'],
['凝神'],
['几'],
['几乎'],
['几度'],
['几时'],
['几番'],
['几经'],
['凡'],
['凡是'],
['凭'],
['凭借'],
['出'],
['出于'],
['出去'],
['出来'],
['出现'],
['分别'],
['分头'],
['分期'],
['分期分批'],
['切'],
['切不可'],
['切切'],
['切勿'],
['切莫'],
['则'],
['则甚'],
['刚'],
['刚好'],
['刚巧'],
['刚才'],
['初'],
['别'],
['别人'],
['别处'],
['别是'],
['别的'],
['别管'],
['别说'],
['到'],
['到了儿'],
['到处'],
['到头'],
['到头来'],
['到底'],
['到目前为止'],
['前后'],
['前此'],
['前者'],
['前进'],
['前面'],
['加上'],
['加之'],
['加以'],
['加入'],
['加强'],
['动不动'],
['动辄'],
['勃然'],
['匆匆'],
['十分'],
['千'],
['千万'],
['千万千万'],
['半'],
['单'],
['单单'],
['单纯'],
['即'],
['即令'],
['即使'],
['即便'],
['即刻'],
['即如'],
['即将'],
['即或'],
['即是说'],
['即若'],
['却'],
['却不'],
['历'],
['原来'],
['去'],
['又'],
['又及'],
['及'],
['及其'],
['及时'],
['及至'],
['双方'],
['反之'],
['反之亦然'],
['反之则'],
['反倒'],
['反倒是'],
['反应'],
['反手'],
['反映'],
['反而'],
['反过来'],
['反过来说'],
['取得'],
['取道'],
['受到'],
['变成'],
['古来'],
['另'],
['另一个'],
['另一方面'],
['另外'],
['另悉'],
['另方面'],
['另行'],
['只'],
['只当'],
['只怕'],
['只是'],
['只有'],
['只消'],
['只要'],
['只限'],
['叫'],
['叫做'],
['召开'],
['叮咚'],
['叮当'],
['可'],
['可以'],
['可好'],
['可是'],
['可能'],
['可见'],
['各'],
['各个'],
['各人'],
['各位'],
['各地'],
['各式'],
['各种'],
['各级'],
['各自'],
['合理'],
['同'],
['同一'],
['同时'],
['同样'],
['后'],
['后来'],
['后者'],
['后面'],
['向'],
['向使'],
['向着'],
['吓'],
['吗'],
['否则'],
['吧'],
['吧哒'],
['吱'],
['呀'],
['呃'],
['呆呆地'],
['呐'],
['呕'],
['呗'],
['呜'],
['呜呼'],
['呢'],
['周围'],
['呵'],
['呵呵'],
['呸'],
['呼哧'],
['呼啦'],
['咋'],
['和'],
['咚'],
['咦'],
['咧'],
['咱'],
['咱们'],
['咳'],
['哇'],
['哈'],
['哈哈'],
['哉'],
['哎'],
['哎呀'],
['哎哟'],
['哗'],
['哗啦'],
['哟'],
['哦'],
['哩'],
['哪'],
['哪个'],
['哪些'],
['哪儿'],
['哪天'],
['哪年'],
['哪怕'],
['哪样'],
['哪边'],
['哪里'],
['哼'],
['哼唷'],
['唉'],
['唯有'],
['啊'],
['啊呀'],
['啊哈'],
['啊哟'],
['啐'],
['啥'],
['啦'],
['啪达'],
['啷当'],
['喀'],
['喂'],
['喏'],
['喔唷'],
['喽'],
['嗡'],
['嗡嗡'],
['嗬'],
['嗯'],
['嗳'],
['嘎'],
['嘎嘎'],
['嘎登'],
['嘘'],
['嘛'],
['嘻'],
['嘿'],
['嘿嘿'],
['四'],
['因'],
['因为'],
['因了'],
['因此'],
['因着'],
['因而'],
['固'],
['固然'],
['在'],
['在下'],
['在于'],
['地'],
['均'],
['坚决'],
['坚持'],
['基于'],
['基本'],
['基本上'],
['处在'],
['处处'],
['处理'],
['复杂'],
['多'],
['多么'],
['多亏'],
['多多'],
['多多少少'],
['多多益善'],
['多少'],
['多年前'],
['多年来'],
['多数'],
['多次'],
['够瞧的'],
['大'],
['大不了'],
['大举'],
['大事'],
['大体'],
['大体上'],
['大凡'],
['大力'],
['大多'],
['大多数'],
['大大'],
['大家'],
['大张旗鼓'],
['大批'],
['大抵'],
['大概'],
['大略'],
['大约'],
['大致'],
['大都'],
['大量'],
['大面儿上'],
['失去'],
['奇'],
['奈'],
['奋勇'],
['她'],
['她们'],
['她是'],
['她的'],
['好'],
['好在'],
['好的'],
['好象'],
['如'],
['如上'],
['如上所述'],
['如下'],
['如今'],
['如何'],
['如其'],
['如前所述'],
['如同'],
['如常'],
['如是'],
['如期'],
['如果'],
['如次'],
['如此'],
['如此等等'],
['如若'],
['始而'],
['姑且'],
['存在'],
['存心'],
['孰料'],
['孰知'],
['宁'],
['宁可'],
['宁愿'],
['宁肯'],
['它'],
['它们'],
['它们的'],
['它是'],
['它的'],
['安全'],
['完全'],
['完成'],
['定'],
['实现'],
['实际'],
['宣布'],
['容易'],
['密切'],
['对'],
['对于'],
['对应'],
['对待'],
['对方'],
['对比'],
['将'],
['将才'],
['将要'],
['将近'],
['小'],
['少数'],
['尔'],
['尔后'],
['尔尔'],
['尔等'],
['尚且'],
['尤其'],
['就'],
['就地'],
['就是'],
['就是了'],
['就是说'],
['就此'],
['就算'],
['就要'],
['尽'],
['尽可能'],
['尽如人意'],
['尽心尽力'],
['尽心竭力'],
['尽快'],
['尽早'],
['尽然'],
['尽管'],
['尽管如此'],
['尽量'],
['局外'],
['居然'],
['届时'],
['属于'],
['屡'],
['屡屡'],
['屡次'],
['屡次三番'],
['岂'],
['岂但'],
['岂止'],
['岂非'],
['川流不息'],
['左右'],
['巨大'],
['巩固'],
['差一点'],
['差不多'],
['己'],
['已'],
['已矣'],
['已经'],
['巴'],
['巴巴'],
['带'],
['帮助'],
['常'],
['常常'],
['常言说'],
['常言说得好'],
['常言道'],
['平素'],
['年复一年'],
['并'],
['并不'],
['并不是'],
['并且'],
['并排'],
['并无'],
['并没'],
['并没有'],
['并肩'],
['并非'],
['广大'],
['广泛'],
['应当'],
['应用'],
['应该'],
['庶乎'],
['庶几'],
['开外'],
['开始'],
['开展'],
['引起'],
['弗'],
['弹指之间'],
['强烈'],
['强调'],
['归'],
['归根到底'],
['归根结底'],
['归齐'],
['当'],
['当下'],
['当中'],
['当儿'],
['当前'],
['当即'],
['当口儿'],
['当地'],
['当场'],
['当头'],
['当庭'],
['当时'],
['当然'],
['当真'],
...]
outstr = []
for word in text:
if ((word not in stopwords) and (len(word)>1)): #去掉停用词和长度小于1的
outstr.append(word)
outstr
['很快',
'好吃',
'味道',
'没有',
'送水',
'没有',
'送水',
'没有',
'送水',
'非常',
'态度',
'方便',
'快捷',
'味道',
'可口',
'递给',
'味道',
'很棒',
'送餐',
'及时',
'今天',
'师傅',
'是不是',
'手抖',
'微辣',
'格外',
'送餐',
'态度',
'特别',
'辛苦',
'谢谢',
'超级',
'送到',
'这么',
'天气',
'骑士',
'辛苦',
'谢谢你们',
'麻辣',
'香锅',
'依然',
'好吃',
'经过',
'上次',
'小时',
'这次',
'超级',
'20',
'分钟',
'送到',
'最后',
'五分钟',
'卖家',
'特别',
'接单',
'谢谢',
'好吃',
'每次',
'够吃',
'两次',
'挺辣',
'可以',
'味道',
'送餐',
'分量',
'量足',
'好吃',
'送餐',
'特别',
'好吃',
'特大',
'而且',
'送餐',
'特别',
'特别',
'特别',
'口感',
'速度',
'相当',
'好吃',
'香锅',
'分量',
'味道',
'好吃',
'速度',
'包装',
'品质',
'家门',
'餐厅',
'味道',
'味道',
'好极',
'送餐',
'很快',
'师傅',
'辛苦',
'味道',
'送餐',
'师傅',
'送餐',
'师傅',
'味道',
'好极',
'送货',
'速度',
'很快',
'一直',
'这家',
'方便',
'很快',
'送到',
'好吃',
'总点',
'这么',
'多够',
'五个',
'很快',
'很香',
'美味',
'下次',
'还会',
'光顾',
'送餐',
'特别',
'态度',
'也好',
'辛苦',
'服务',
'不错',
'送到',
'很快',
'半小时',
'不到',
'送来',
'速度',
'很快',
'大雾',
'外卖',
'骑士',
'态度',
'赞赞赞',
'味道',
'正宗',
'内容',
'送餐',
'非常',
'态度',
'特别',
'谢谢',
'又快又好',
'量足',
'经常',
'好大',
'一盆',
'份量',
'配送',
'人员',
'态度',
'速度',
'这种',
'天气',
'感谢',
'餐员',
'辛苦',
'服务',
'谢谢',
'送餐',
'特别',
'态度',
'非常感谢',
'非常',
'包装',
'谢谢',
'师傅',
'附近',
'好吃',
'麻辣',
'香锅',
'开玩笑',
'味道',
'不错',
'份量',
'很足',
'建议',
'点小份',
'红薯',
'好吃',
'就是',
'太烂',
'容易',
'不错',
'就是',
'稍微',
'咸了',
'这么晚',
'辛苦',
'外卖',
'小哥',
'超级',
'送到',
'谢谢',
'骑士',
'很快',
'感谢',
'骑士',
'这种',
'天气',
'工作',
'非常',
'好吃',
'味道',
'推荐',
'好吃',
'速递',
'下次',
'继续',
'选择',
'很快',
'特别',
'太麻',
'青笋',
'有点',
'米饭',
'土豆片',
'不到',
'多次',
'味道',
'很香',
'态度',
'地址',
'填错',
'还是',
'一趟',
'没有',
'表现',
'愿意',
'样子',
'为了',
'这个',
'快递',
'评论',
'快递',
'小哥',
'很快',
'送到',
'水煮',
'牛肉',
'肉质',
'鲜嫩',
'恰到好处',
'入味',
'不错',
'挺好吃',
'口味',
'不错',
'干净',
'味道',
'送货员',
'服务',
'非常',
'送餐',
'特别',
'态度',
'辛苦',
'谢谢',
'送餐',
'送餐',
'大哥',
'态度',
'辛苦',
'送餐',
'很快',
'态度',
'谢谢',
'挺不错',
'快递',
'大叔',
'特别',
'就是',
'百度',
'外卖',
'现在',
'优惠',
'那个',
'投奔',
'感觉',
'没有',
'店里',
'好吃',
'感谢',
'送餐',
'师傅',
'我们',
'六楼',
'电梯',
'爬楼梯',
'菜场',
'挺好吃',
'快递',
'小哥',
'辛苦',
'下雨天',
'真是',
'辛苦',
'点赞',
'相当',
'送餐',
'一大',
'盒子',
'好吃',
'送餐',
'特别',
'餐员',
'态度',
'特别',
'速度',
'很香',
'味道',
'正点',
'餐具',
'送餐',
'速度',
'豆腐',
'异味',
'有点',
'非常',
'第一次',
'百度',
'外卖',
'送餐',
'很快',
'快递',
'小哥',
'礼貌',
'菜品',
'量足',
'味道',
'不错',
'下次',
'味道',
'不错',
'东西',
'可以',
'但是',
'没有',
'店里',
'好吃',
'锅底',
'怎么',
'13',
'很香',
'好吃',
'餐员',
'菜量',
'满意',
'就是',
'墨鱼',
'不太好',
'有股',
'臭味',
'其他',
'好吃',
'不错',
'好吃',
'就是',
'最后',
'有点',
'一个',
'小时',
'送到',
'好吃',
'但是',
'平菇',
'怎么',
'辣椒',
'放太多',
'锅仔',
'酸菜',
'腔骨',
'怎么',
'酸菜',
'只有',
'青笋',
'腔骨',
'青笋',
'不是',
'合口味',
'女友',
'猪蹄',
'好吃',
'过年',
'期间',
'容易',
'快递',
'小哥',
'个赞',
'辛苦',
'炒饭',
'有点儿',
'不过',
'还是',
'送餐',
'及时',
'菜品',
'味道',
'不错',
'实在',
'好评',
'送餐',
'挺快',
'骑士',
'服务态度',
'速度',
'迅速',
'最近',
'一直',
'这家',
'外卖',
'相当',
'不错',
'够味儿',
'快递',
'小哥',
'棒棒',
'很多',
'就是',
'尖椒',
'豆腐皮',
'味道',
'差点',
'不是',
'尖椒',
'大海',
'一点',
'辣味',
'没有',
'味道',
'不错',
'红烧肉',
'软点',
'完美',
'快递',
'负责',
'味道',
'送餐',
'速度',
'很快',
'一直',
'订餐',
'不错',
'好评',
'送餐',
'小哥',
'服务',
'不错',
'态度',
'准时',
'饭菜',
'不错',
'冷天',
'一个',
'挺好吃',
'不错',
'很快',
'美味',
'送餐',
'人员',
'态度',
'不错',
'不错',
'好吃',
'态度',
'又快又好',
'小哥',
'态度',
'好评',
'下雨天',
'小哥',
'提前',
'送过来',
'辛苦',
'好评',
'服务态度',
'配送',
'员人',
'不错',
'好吃',
'两个',
'还会',
'光顾',
'小炒',
'真心',
'不是',
'湖南',
'小炒',
'坦白讲',
'推荐',
'鸭头',
'不错',
'特别',
'实在',
'实惠',
'良心',
'餐厅',
'味道',
'不错',
'不错',
'菜品',
'物美价廉',
'空心菜',
'份量',
'不错',
'好吃',
'就是',
'饭太少',
'今天',
'真快',
'好评',
'送货',
'时间',
'挺准',
'就是',
'对路',
'不太熟悉',
'可以',
'最近',
'迷恋',
'金桔',
'柠檬茶',
'服务态度',
'不错',
'骑手',
'辛苦',
'口味',
'不错',
'服务态度',
'感谢',
'你们',
'今天',
'真是',
'超级',
'感觉',
'下单',
'送到',
'哈哈哈',
'外送',
'很快',
'一个',
'非常',
'特别',
'棒棒',
'服务',
'就是',
'习惯',
'百度',
'外卖',
'快速',
'口感',
'其他',
'不能',
'喜欢',
'配送费',
'越来越',
'态度',
'非常',
'速度',
'味道',
'好极了',
'好喝',
'红红火火',
'哈哈哈',
'快递',
'小哥',
'辛苦',
'快递',
'及时',
'方便',
'服务',
'下次',
'还会',
'订购',
'不错',
'就定',
'他们',
'及时',
'饮料',
'好喝',
'不错',
'快递',
'很快',
'奶茶',
'还行',
'很快',
'布丁',
'奶茶',
'好喝',
'好喝',
'快递',
'小哥',
'热情',
'速度',
'很快',
'好喝',
'不错',
'好喝',
'没有',
'骑士',
'一个',
'礼貌',
'辛苦',
'满意',
'速度',
'非常',
'味道',
'很棒',
'辛苦',
'餐员',
'经常',
'特别',
'好喝',
'递给',
'冷天',
'辛苦',
'快递',
'大哥',
'超级',
'奶茶',
'一如既往',
'美味',
'送餐',
'很快',
'这么',
'天气',
'辛苦',
'外卖',
'名字',
'我们',
'名字',
'一样',
'服务态度',
'饮料',
'很棒',
'这样',
'寒冷',
'大风',
'天气',
'下午',
'奶茶',
'终于',
'已经',
'变成',
'感谢',
'骑士',
'敬业精神',
'大风',
'容易',
'非常',
'点半',
'下单',
'送到',
'今天',
'可以',
'理解',
'外送',
'态度',
'非常',
'虽然',
'但是',
'还是',
'好评',
'快递',
'师傅',
'特别',
'冷天',
'真不容易',
'谢谢',
'非常感谢',
'那么',
'天真',
'麻烦',
'虽然',
'还是',
'感谢',
'配送',
'辛苦',
'服务',
'好几年',
'快乐',
'柠檬',
'第一次',
'曲奇',
'奶茶',
'个人',
'觉得',
'好喝',
'本人',
'还是',
'喜欢',
'茶类',
'冰饮',
'配送',
'员赞',
'一个',
'冬天',
'一直',
'满意',
'骑士',
'很棒',
'这个',
'实在',
'太好了',
'外送',
'大哥',
'辛苦',
'送餐',
'很快',
'这么',
'辛苦',
'好喝',
'百度',
'很快',
'非常感谢',
'一如既往',
'味道',
'喜欢',
'口味',
'送货员',
'态度',
'非常感谢',
'辛苦',
'大哥',
'热情',
'不错',
'好评',
'大满贯',
'奶茶',
'超大',
'今天',
'半糖',
'下次',
'希望',
'别忘',
'快递',
'态度',
'冷天',
'辛苦',
'速度',
'很快',
'味道',
'很赞',
'骑士',
'师傅',
'人好',
'态度',
'超级',
'服务态度',
'速度',
'值得',
'表扬',
'师傅',
'超级',
'很快',
'师傅',
'好极了',
'送来',
'还是',
'非常',
'满意',
'送餐',
'很快',
'十万个',
'好喝',
'没有',
'之一',
'百度',
'骑士',
'服务',
'五分',
'好评',
'非常',
'相当',
'很快',
'味道',
'好好',
'一直',
'喜欢',
'他家',
'东西',
'味好',
'便宜',
'不错',
'不错',
'快递',
'师傅',
'饮料',
'好喝',
'送餐',
'神速',
'岩盐',
'芝士',
'绿茶',
'每单',
'必点',
'一如既往',
'又快又好',
'每周',
'百度',
'外卖',
'快乐',
'柠檬',
'奶茶',
'送餐',
'奶茶',
'好喝',
'棒棒',
'开心',
'快递',
'速度',
'服务',
'辛苦',
'元旦节',
'晚上',
'真的',
'感动',
'一直',
'喜欢',
'柠檬',
'小子',
'蛋糕',
'珍珠',
'特别',
'好喝',
'盐岩',
'芝士',
'珍珠',
'很棒',
'非常',
'非常',
'支持',
'百度',
'骑士',
'特别',
'给力',
'奶茶',
'经典',
'大家',
'爱喝',
'好喝',
'好喝',
'超级',
'喜欢',
'这家',
'饮料',
'小哥',
'送餐',
'很快',
'外卖',
'小哥',
'很赞',
'很快',
'养乐多',
'好喝',
'小哥',
'超帅',
'超级',
'给力',
'骑士',
'饮料',
'好喝',
'一直',
'好喝',
'这个',
'好喝',
'好喝',
'很快',
'百度',
'外卖',
'喜欢',
'一样',
'喜欢',
'继续',
'光顾',
'非常',
'好喝',
'一直',
'喜欢',
'布丁',
'好吃',
'送货',
'态度',
'非常',
'提前',
'20',
'多分钟',
'送得',
'非常',
'百度',
'配送',
'奶茶',
'一如既往',
'好喝',
'棒棒',
'嘿嘿',
'不错',
'不错',
'第一次',
'买冰沙',
'口感',
'真不错',
'喜欢',
'师傅',
'特别',
'送货',
'认真',
'外送',
'小哥',
'态度',
'辛苦',
'非常',
'送货',
'非常',
'比美',
'好多',
'以后',
'超快',
'送到',
'喜欢',
'百度',
'外卖',
'真心',
'天气',
'这么',
'不好',
'情况',
'下点',
'外卖',
'实在',
'对不住',
'外卖',
'小哥',
'辛苦',
'芋圆',
'小丸子',
'不甜',
'希望',
'下次',
'一点',
'真的',
'没什么',
'味道',
'虽然',
'但是',
'理解',
'好好',
'赞赞赞',
'态度',
'速度',
'非常',
'辛苦',
'好喝',
'师傅',
'服务',
'送得',
'好评',
'大雾',
'外送',
'大哥',
'辛苦',
'注意',
'身体',
'就是',
'配送',
'大哥',
'忘记',
'吸管',
'其他',
'很棒',
'速度',
'奶茶',
'好喝',
'师傅',
'服务',
'热情',
'派送',
'非常',
'速度',
'态度',
'棒棒',
'建议',
'出款',
'浓情',
'可可',
'岩岩',
'区别',
'一下',
'总体',
'满意',
'百度',
'支持',
'百度',
...]
text_feature_dict = collections.Counter(outstr)
text_feature_dict
Counter({'很快': 481,
'好吃': 1563,
'味道': 1592,
'没有': 1194,
'送水': 3,
'非常': 561,
'态度': 395,
'方便': 67,
'快捷': 4,
'可口': 12,
'递给': 5,
'很棒': 62,
'送餐': 1586,
'及时': 89,
'今天': 203,
'师傅': 201,
'是不是': 76,
'手抖': 1,
'微辣': 25,
'格外': 1,
'特别': 408,
'辛苦': 262,
'谢谢': 134,
'超级': 248,
'送到': 882,
'这么': 280,
'天气': 44,
'骑士': 158,
'谢谢你们': 2,
'麻辣': 27,
'香锅': 17,
'依然': 12,
'经过': 7,
'上次': 53,
'小时': 1245,
'这次': 203,
'20': 136,
'分钟': 319,
'最后': 142,
'五分钟': 10,
'卖家': 32,
'接单': 32,
'每次': 109,
'够吃': 7,
'两次': 66,
'挺辣': 2,
'可以': 447,
'分量': 83,
'量足': 20,
'特大': 7,
'而且': 365,
'口感': 56,
'速度': 743,
'相当': 28,
'包装': 256,
'品质': 26,
'家门': 4,
'餐厅': 93,
'好极': 2,
'送货': 128,
'一直': 157,
'这家': 165,
'总点': 1,
'多够': 1,
'五个': 5,
'很香': 16,
'美味': 31,
'下次': 224,
'还会': 45,
'光顾': 23,
'也好': 37,
'服务': 323,
'不错': 1256,
'半小时': 127,
'不到': 130,
'送来': 571,
'大雾': 5,
'外卖': 652,
'赞赞赞': 13,
'正宗': 24,
'内容': 12,
'又快又好': 14,
'经常': 54,
'好大': 13,
'一盆': 2,
'份量': 37,
'配送': 426,
'人员': 96,
'这种': 56,
'感谢': 61,
'餐员': 264,
'非常感谢': 17,
'附近': 10,
'开玩笑': 4,
'很足': 21,
'建议': 73,
'点小份': 1,
'红薯': 6,
'就是': 716,
'太烂': 11,
'容易': 54,
'稍微': 48,
'咸了': 10,
'这么晚': 8,
'小哥': 309,
'工作': 18,
'推荐': 75,
'速递': 3,
'继续': 60,
'选择': 29,
'太麻': 1,
'青笋': 10,
'有点': 504,
'米饭': 290,
'土豆片': 8,
'多次': 66,
'地址': 54,
'填错': 2,
'还是': 545,
'一趟': 8,
'表现': 2,
'愿意': 9,
'样子': 27,
'为了': 29,
'这个': 219,
'快递': 298,
'评论': 23,
'水煮': 10,
'牛肉': 182,
'肉质': 7,
'鲜嫩': 3,
'恰到好处': 2,
'入味': 13,
'挺好吃': 103,
'口味': 178,
'干净': 83,
'送货员': 21,
'大哥': 51,
'挺不错': 24,
'大叔': 25,
'百度': 423,
'现在': 90,
'优惠': 53,
'那个': 69,
'投奔': 1,
'感觉': 280,
'店里': 178,
'我们': 100,
'六楼': 2,
'电梯': 11,
'爬楼梯': 3,
'菜场': 1,
'下雨天': 20,
'真是': 196,
'点赞': 18,
'一大': 17,
'盒子': 74,
'正点': 1,
'餐具': 71,
'豆腐': 72,
'异味': 8,
'第一次': 204,
'礼貌': 23,
'菜品': 185,
'东西': 288,
'但是': 404,
'锅底': 1,
'怎么': 306,
'13': 71,
'菜量': 91,
'满意': 154,
'墨鱼': 1,
'不太好': 22,
'有股': 13,
'臭味': 7,
'其他': 138,
'一个': 590,
'平菇': 1,
'辣椒': 110,
'放太多': 4,
'锅仔': 1,
'酸菜': 17,
'腔骨': 3,
'只有': 138,
'不是': 364,
'合口味': 6,
'女友': 2,
'猪蹄': 13,
'过年': 3,
'期间': 17,
'个赞': 13,
'炒饭': 55,
'有点儿': 33,
'不过': 194,
'实在': 174,
'好评': 143,
'挺快': 105,
'服务态度': 131,
'迅速': 12,
'最近': 14,
'够味儿': 1,
'棒棒': 54,
'很多': 102,
'尖椒': 41,
'豆腐皮': 1,
'差点': 25,
'大海': 1,
'一点': 256,
'辣味': 13,
'红烧肉': 30,
'软点': 3,
'完美': 20,
'负责': 32,
'订餐': 180,
'准时': 98,
'饭菜': 122,
'冷天': 34,
'提前': 92,
'送过来': 168,
'员人': 3,
'两个': 401,
'小炒': 41,
'真心': 132,
'湖南': 5,
'坦白讲': 1,
'鸭头': 8,
'实惠': 77,
'良心': 11,
'物美价廉': 7,
'空心菜': 1,
'饭太少': 4,
'真快': 5,
'时间': 543,
'挺准': 1,
'对路': 1,
'不太熟悉': 1,
'迷恋': 1,
'金桔': 1,
'柠檬茶': 3,
'骑手': 6,
'你们': 218,
'下单': 166,
'哈哈哈': 17,
'外送': 34,
'习惯': 21,
'快速': 10,
'不能': 226,
'喜欢': 177,
'配送费': 8,
'越来越': 59,
'好极了': 10,
'好喝': 109,
'红红火火': 3,
'订购': 6,
'就定': 8,
'他们': 53,
'饮料': 122,
'奶茶': 48,
'还行': 70,
'布丁': 11,
'热情': 34,
'一如既往': 53,
'名字': 11,
'一样': 205,
'这样': 152,
'寒冷': 4,
'大风': 11,
'下午': 70,
'终于': 27,
'已经': 278,
'变成': 53,
'敬业精神': 1,
'点半': 36,
'理解': 56,
'虽然': 65,
'真不容易': 2,
'那么': 158,
'天真': 3,
'麻烦': 30,
'好几年': 1,
'快乐': 6,
'柠檬': 11,
'曲奇': 3,
'个人': 31,
'觉得': 93,
'本人': 8,
'茶类': 1,
'冰饮': 1,
'员赞': 1,
'冬天': 9,
'太好了': 8,
'大满贯': 4,
'超大': 7,
'半糖': 5,
'希望': 161,
'别忘': 1,
'很赞': 30,
'人好': 4,
'值得': 36,
'表扬': 9,
'十万个': 1,
'之一': 13,
'五分': 9,
'好好': 40,
'他家': 90,
'味好': 2,
'便宜': 62,
'神速': 33,
'岩盐': 4,
'芝士': 39,
'绿茶': 4,
'每单': 1,
'必点': 2,
'每周': 2,
'开心': 16,
'元旦节': 1,
'晚上': 41,
'真的': 244,
'感动': 7,
'小子': 1,
'蛋糕': 44,
'珍珠': 5,
'盐岩': 1,
'支持': 26,
'给力': 28,
'经典': 8,
'大家': 60,
'爱喝': 1,
'养乐多': 1,
'超帅': 1,
'多分钟': 30,
'送得': 28,
'嘿嘿': 3,
'买冰沙': 1,
'真不错': 14,
'认真': 17,
'比美': 3,
'好多': 74,
'以后': 302,
'超快': 47,
'不好': 181,
'情况': 33,
'下点': 1,
'对不住': 1,
'芋圆': 1,
'小丸子': 4,
'不甜': 3,
'没什么': 42,
'注意': 51,
'身体': 3,
'忘记': 26,
'吸管': 43,
'派送': 25,
'出款': 1,
'浓情': 1,
'可可': 6,
'岩岩': 1,
'区别': 11,
'一下': 85,
'总体': 42,
'公司': 25,
'一定': 31,
'发给': 1,
'口罩': 2,
'太不容易': 1,
'两种': 7,
'太赞': 9,
'我家': 20,
'热饮': 7,
'大杯': 5,
'中杯': 2,
'不够': 79,
'隔三差五': 1,
'两杯': 11,
'必须': 39,
'还好': 116,
'每天': 15,
'昨天': 35,
'最牛': 1,
'菠萝': 6,
'冻过': 1,
'冰冻': 1,
'几乎': 39,
'老点': 2,
'简直': 106,
'努力': 14,
'態度': 1,
'封口': 7,
'不会': 265,
'出来': 108,
'一周': 3,
'四次': 5,
'最爱手': 1,
'上班': 40,
'可好': 4,
'客气': 11,
'因为': 111,
'食物': 41,
'破损': 1,
'两趟': 4,
'一杯': 32,
'提神醒脑': 1,
'明天': 12,
'还会点': 5,
'换口味': 1,
'尝尝': 13,
'知道': 254,
'进步': 2,
'最给力': 1,
'赞赞': 12,
'红豆': 6,
'更好': 46,
'今晚': 3,
'作死点': 1,
'无糖': 4,
'好酸': 1,
'友情': 2,
'提示': 15,
'减肥': 4,
'朋友': 31,
'点半糖': 1,
'天天': 11,
'几天': 21,
'今儿': 2,
'几杯': 2,
'她们': 2,
'赞不绝口': 1,
'超赞': 18,
'上面': 31,
'提醒': 8,
'全都': 48,
'三次': 33,
'餐员大': 2,
'大雪': 11,
'员给力': 1,
'真暖心': 1,
'太甜': 18,
'尤其': 26,
'力度': 5,
'再大些': 1,
'手滑点': 1,
'成冰': 1,
'悲剧': 3,
'预计': 54,
'十分钟': 24,
'小伙儿': 2,
'可惜': 32,
'更改': 3,
'杯型': 2,
'所有': 25,
'订单': 231,
'齐全': 8,
'餐员特': 1,
'说话': 9,
'太快': 31,
'飞过来': 1,
'大姐': 5,
'五星': 19,
'礼品': 1,
'高兴': 8,
'意外': 4,
'惊喜': 8,
'饮品': 5,
'有外': 1,
'热心': 1,
'帮忙': 8,
'零钱': 19,
'吸吸': 1,
'哈哈': 22,
'时候': 226,
'热乎乎': 8,
'32': 13,
'准时到达': 3,
'太给力': 8,
'钥匙': 1,
'耐心': 12,
'安慰': 2,
'着急': 13,
'特别感谢': 4,
'唯一': 14,
'不足': 10,
'莫名': 2,
'失败': 31,
'喝不惯': 1,
'长得帅': 1,
'超给力': 1,
'单时': 2,
'打电话': 349,
'有效率': 2,
'好开心': 1,
'优惠活动': 3,
'杯子': 13,
'赶上': 7,
'最大': 1,
'地方': 58,
'大半个': 1,
'快態度': 1,
'弹珠': 1,
'和芋': 1,
'珍珠奶茶': 2,
'购买': 22,
'好大杯': 1,
'吓死': 2,
'宝宝': 2,
'灰常好': 1,
'半个': 71,
'足不出户': 1,
'享受': 5,
'清凉': 1,
'几次': 49,
'女儿': 4,
'有点咸': 26,
'比较': 126,
'赞滴': 1,
'还会来': 10,
'少年': 1,
'可爱': 9,
'温馨': 5,
'记得': 8,
'带够': 2,
'很浓': 4,
'灵活': 1,
'店家': 122,
'冰爽': 1,
'大爱': 5,
'没撒': 2,
'不用': 27,
'外面': 36,
'下雨': 23,
'多年': 3,
'雨天': 2,
'家里': 10,
'本次': 7,
'愉快': 14,
'还定': 3,
'好少': 9,
'女生': 19,
'来说': 29,
'不太够': 2,
'很少': 54,
'多定': 5,
'两碗': 7,
'土豆': 87,
'适合': 19,
'老人': 5,
'辣子鸡': 3,
'越来越少': 11,
'江山': 2,
'烤鸭': 12,
'效率': 9,
'十分': 15,
'足哈': 1,
'可是': 87,
'为啥': 25,
'用手': 5,
'幸好': 12,
'两双': 5,
'有求必应': 1,
'到手': 9,
'烫烫': 1,
'日子': 2,
'要求': 76,
'爽快': 1,
'满足': 5,
'三个': 77,
'拿来': 9,
'很大': 58,
'千叶': 6,
'包菜': 20,
'鱼香肉丝': 49,
'咸淡': 3,
'刚刚': 20,
'卫生': 38,
'没想到': 27,
'几颗': 2,
'山楂': 4,
'保持': 9,
'高效': 1,
'讲究': 2,
'私房': 1,
'问题': 93,
'餐盒': 65,
'必要': 7,
'在家': 12,
'很多年': 1,
'一级': 6,
'以前': 119,
'第二次': 61,
'丸子': 20,
'很嫩': 5,
'拔丝': 1,
'山药': 8,
'还给': 25,
'一袋': 9,
'呵呵': 81,
'贴心': 27,
'力会': 1,
'太配': 1,
'炒菜': 17,
'全家': 5,
'四个': 8,
'宫保鸡': 39,
'茄子': 18,
'酸辣': 7,
'土豆丝': 96,
'几个': 25,
'作为': 11,
'效果': 2,
'知足': 1,
'毛血旺': 7,
'辣度': 1,
'正合适': 3,
'比眉州': 1,
'性价比': 25,
'更高': 1,
'荷兰豆': 1,
'甜甜的': 3,
'小伙': 9,
'真棒': 5,
'尽责': 1,
'有些': 82,
'提高': 22,
'哥们': 7,
'还点': 6,
'饭少': 2,
'zz': 1,
'需求': 6,
'接受': 19,
'不了': 71,
'排骨': 57,
'鸡里': 1,
'放点': 3,
'da': 1,
'别的': 66,
'女朋友': 1,
'鸡汤': 4,
'咸死': 10,
'无法': 34,
'不辣': 21,
'撒得': 1,
'一塌糊涂': 11,
'一盒': 36,
'三盒': 3,
'我要': 80,
'四盒': 2,
'排骨饭': 5,
'鸡饭': 3,
'全是': 132,
'吃不下': 5,
'一份': 190,
'只不过': 6,
'里面': 228,
'骨头': 13,
'还要': 61,
'十个': 9,
'拥有': 3,
'黄焖': 14,
'大赞': 16,
'一家': 28,
'吉野家': 5,
'不太多': 1,
'价格便宜': 7,
'这大': 5,
'谢谢您': 3,
'一般': 576,
'质量': 77,
'饭饭': 1,
'热乎': 14,
'对川人': 1,
'火箭': 2,
'负责人': 3,
'看着': 31,
'饭量': 32,
'飞速': 2,
'送达': 180,
'确实': 56,
'服务周到': 4,
'应该': 79,
'有所': 2,
'升级': 2,
'好像': 35,
'细心': 13,
'榨菜': 7,
'多一些': 4,
'汤汁': 24,
'速溶': 1,
'咖啡': 102,
'如果': 92,
'满减': 13,
'干嘛': 16,
'非要': 6,
'10': 147,
'以上': 9,
'哥哥': 6,
'超好': 15,
'软硬': 2,
'少见': 1,
'一流': 4,
'香干': 3,
'回锅肉': 9,
'萝卜干': 2,
'每份': 1,
'饭到': 4,
'几分钟': 8,
'吃不完': 10,
'这饭': 3,
'套餐': 148,
'特价': 7,
'价格': 81,
'划算': 21,
'重要': 28,
'事情': 14,
'三遍': 13,
'减时': 1,
'合适': 16,
'好点': 5,
'coffee': 1,
'大大的': 5,
'产品质量': 4,
'小店': 1,
'只是': 61,
'双拼': 6,
'参合': 2,
'不大好': 2,
'认真负责': 5,
'周到': 10,
'起来': 55,
'入口': 1,
'王昭晖': 1,
'还够': 1,
'偏硬': 2,
'离得': 5,
'速冲': 2,
'价钱': 19,
'捡了个': 1,
'活动': 33,
'正好': 9,
'看见': 21,
'对于': 7,
'食量': 1,
'妹纸': 1,
'沙拉': 44,
'什锦': 4,
'蘑菇': 34,
'挺大': 8,
'棒呆': 2,
'超有': 1,
'鸡蛋': 75,
'煎成': 2,
'形状': 2,
'好帅': 2,
'可能': 77,
'不要': 242,
'同时': 8,
'肥牛': 34,
'排会': 1,
'一起': 65,
'精致': 24,
'午餐': 16,
'不慢': 2,
'无意': 1,
'看到': 42,
'超高': 3,
'白度': 1,
'够快': 8,
'饭品': 1,
'OK': 6,
'蔬菜': 87,
'色拉': 1,
'新鲜': 96,
'配菜': 41,
'颜色': 9,
'不太': 48,
'什么': 363,
'口香': 1,
'优谷': 1,
'打广告': 1,
'菜色': 3,
'足足': 27,
'楼下': 39,
'正式': 1,
'军姿': 1,
'等待': 27,
'取餐': 41,
'双手': 1,
'端饭': 1,
'送给': 4,
'用餐': 15,
'一双': 10,
'墨镜': 1,
'透着': 1,
'帅气': 2,
'汁少': 1,
'太值': 1,
'到达': 15,
'空运': 1,
'超酷': 1,
'热腾腾': 6,
'好事': 1,
'少发': 2,
'联系': 80,
'马上': 26,
'还来': 8,
'体贴': 1,
'没见': 33,
'很帅': 4,
'常订': 1,
'多订': 5,
'多多关照': 1,
'道菜': 4,
'大过年': 2,
'湘菜': 3,
'元旦': 1,
'刀功': 1,
'较长': 2,
'电话': 341,
'快快': 3,
'十足': 6,
'下饭': 3,
'袋子': 107,
'端的': 1,
'一手': 4,
'功能': 5,
'大小': 13,
'太小': 31,
'白菜': 26,
'太油': 28,
'青菜': 17,
'少放点': 5,
'猪手': 8,
'可说': 3,
'大肠': 2,
'寒冬': 2,
'比不上': 3,
'当地': 1,
'北京': 17,
'老板': 50,
'湖南人': 1,
'菜油': 2,
'肥肠': 11,
'全部': 27,
'擂椒': 1,
'荷包蛋': 2,
'不得了': 4,
'懒得': 11,
'出门': 11,
'老公': 10,
'大白菜': 5,
'还省': 1,
'15': 65,
'光光': 1,
'基本': 50,
'一天': 20,
'一次': 228,
'不腻': 10,
'送菜': 12,
'菜味佳': 1,
'紫苏': 1,
'黄瓜': 29,
'油大': 5,
'烧椒': 1,
'皮蛋': 102,
'发酸': 4,
'莴笋': 2,
'烟笋': 1,
'我点': 65,
'绿色': 4,
'那种': 22,
'送个': 9,
'黑色': 2,
'请问': 26,
'哪个': 4,
'菜名': 1,
'砂锅': 5,
'湖南菜': 1,
'极了': 8,
'评价': 78,
'本来': 65,
'45': 55,
'25': 14,
'很辣': 9,
'预定': 29,
'襄阳': 1,
'肉末': 14,
'酸豆角': 12,
'少个': 1,
'卤蛋': 35,
'过瘾': 4,
'热干面': 8,
'鹌鹑': 1,
'调料': 20,
'好怪': 1,
'其它': 20,
'太爱': 1,
'特快': 3,
'很正': 4,
'定过': 5,
'严寒': 2,
'哥好': 1,
'秒速': 1,
'温暖': 3,
'聪明': 2,
'一万个': 2,
'家乡': 5,
'不多': 5,
'牛杂': 3,
'吃掉': 2,
'大厅': 3,
'牛肉面': 16,
'刚好': 8,
'新年': 2,
'第一天': 7,
'豆皮': 9,
'贵点': 1,
'收钱': 3,
'100': 30,
'湖北': 2,
'人必': 1,
'餐员点': 1,
'口淡': 1,
'巨快': 4,
'面条': 27,
'花生米': 10,
'菠菜': 13,
'花生': 24,
'太多': 32,
'点菜': 6,
'好香': 2,
'美团': 4,
'果断': 14,
'汤面': 4,
'个别': 3,
'地道': 9,
'听闻': 1,
'亲自': 4,
'品尝': 7,
'发票': 119,
'配汤': 1,
'不加': 2,
'葱花': 2,
'结果': 286,
'两份': 75,
'冒雪': 1,
'预期': 10,
'快点': 26,
'汤洒': 18,
'最好': 15,
'手机': 16,
'APP': 2,
'送清': 1,
'口香糖': 1,
'为什么': 147,
'鸡腿': 32,
'台太便': 1,
'小吃': 6,
'量少': 44,
'到位': 11,
'单位': 5,
'房间': 6,
'爬楼': 1,
'极快': 3,
'一旦': 2,
'别无所求': 1,
'海带丝': 10,
'好快': 13,
'果冻': 1,
'自送': 2,
'推广': 2,
'每家店': 1,
'碱面': 2,
'想念': 1,
'面和汤': 2,
'分开': 16,
'用心': 23,
'米酒': 1,
'不太甜': 1,
'很软': 1,
'海带': 18,
'好久': 35,
'只用': 5,
'豆干收': 1,
'打包': 34,
'塑料袋': 25,
'在线': 13,
'支付': 23,
'好多钱': 1,
'无所谓': 5,
'这送餐': 7,
'员取': 2,
'不出': 1,
'真香': 1,
'上火': 3,
'吃太辣': 1,
'赠送': 11,
'泡发': 3,
'小心': 19,
'送错': 128,
'还有': 144,
'面里': 6,
'没加': 9,
...})
text_feature_sort_result = text_feature_dict.most_common(100)
text_feature_sort_result
[('味道', 1592),
('送餐', 1586),
('好吃', 1563),
('不错', 1256),
('小时', 1245),
('没有', 1194),
('送到', 882),
('速度', 743),
('就是', 716),
('外卖', 652),
('难吃', 610),
('一个', 590),
('一般', 576),
('送来', 571),
('太慢', 566),
('非常', 561),
('还是', 545),
('时间', 543),
('有点', 504),
('很快', 481),
('可以', 447),
('配送', 426),
('百度', 423),
('特别', 408),
('但是', 404),
('两个', 401),
('态度', 395),
('而且', 365),
('不是', 364),
('什么', 363),
('打电话', 349),
('电话', 341),
('服务', 323),
('分钟', 319),
('小哥', 309),
('怎么', 306),
('以后', 302),
('快递', 298),
('米饭', 290),
('东西', 288),
('结果', 286),
('这么', 280),
('感觉', 280),
('已经', 278),
('卷饼', 277),
('差评', 267),
('不会', 265),
('餐员', 264),
('辛苦', 262),
('包装', 256),
('一点', 256),
('知道', 254),
('超级', 248),
('真的', 244),
('不要', 242),
('订单', 231),
('里面', 228),
('一次', 228),
('不能', 226),
('时候', 226),
('下次', 224),
('这个', 219),
('你们', 218),
('一样', 205),
('第一次', 204),
('今天', 203),
('这次', 203),
('师傅', 201),
('煎饼', 201),
('根本', 199),
('真是', 196),
('不过', 194),
('商家', 193),
('一份', 190),
('自己', 190),
('12', 186),
('菜品', 185),
('11', 183),
('牛肉', 182),
('不好', 181),
('订餐', 180),
('送达', 180),
('肘子', 179),
('口味', 178),
('店里', 178),
('喜欢', 177),
('实在', 174),
('送过来', 168),
('下单', 166),
('这家', 165),
('希望', 161),
('一个半', 161),
('骑士', 158),
('那么', 158),
('一直', 157),
('满意', 154),
('居然', 153),
('这样', 152),
('套餐', 148),
('10', 147)]
Full_Feature_word,Full_Feature_weight= list(dict(text_feature_sort_result).keys()), list(dict(text_feature_sort_result).values())
Full_Feature_word
['味道',
'送餐',
'好吃',
'不错',
'小时',
'没有',
'送到',
'速度',
'就是',
'外卖',
'难吃',
'一个',
'一般',
'送来',
'太慢',
'非常',
'还是',
'时间',
'有点',
'很快',
'可以',
'配送',
'百度',
'特别',
'但是',
'两个',
'态度',
'而且',
'不是',
'什么',
'打电话',
'电话',
'服务',
'分钟',
'小哥',
'怎么',
'以后',
'快递',
'米饭',
'东西',
'结果',
'这么',
'感觉',
'已经',
'卷饼',
'差评',
'不会',
'餐员',
'辛苦',
'包装',
'一点',
'知道',
'超级',
'真的',
'不要',
'订单',
'里面',
'一次',
'不能',
'时候',
'下次',
'这个',
'你们',
'一样',
'第一次',
'今天',
'这次',
'师傅',
'煎饼',
'根本',
'真是',
'不过',
'商家',
'一份',
'自己',
'12',
'菜品',
'11',
'牛肉',
'不好',
'订餐',
'送达',
'肘子',
'口味',
'店里',
'喜欢',
'实在',
'送过来',
'下单',
'这家',
'希望',
'一个半',
'骑士',
'那么',
'一直',
'满意',
'居然',
'这样',
'套餐',
'10']
Full_Feature_weight
[1592,
1586,
1563,
1256,
1245,
1194,
882,
743,
716,
652,
610,
590,
576,
571,
566,
561,
545,
543,
504,
481,
447,
426,
423,
408,
404,
401,
395,
365,
364,
363,
349,
341,
323,
319,
309,
306,
302,
298,
290,
288,
286,
280,
280,
278,
277,
267,
265,
264,
262,
256,
256,
254,
248,
244,
242,
231,
228,
228,
226,
226,
224,
219,
218,
205,
204,
203,
203,
201,
201,
199,
196,
194,
193,
190,
190,
186,
185,
183,
182,
181,
180,
180,
179,
178,
178,
177,
174,
168,
166,
165,
161,
161,
158,
158,
157,
154,
153,
152,
148,
147]
Common_matrix = np.zeros((len(Full_Feature_word), len(Full_Feature_word)))
Common_matrix
array([[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
...,
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.]])
##我们采用对称窗口,且窗口大小为1
for i in range(len(Full_Feature_word)):
for j in range(0,i):
Common_weight =0
word1 = Full_Feature_word[i]
word2 = Full_Feature_word[j]
for k in range(len(outstr)):
if outstr[k]==word1:
if k!=0 and outstr[k-1]==word2:
Common_weight += 1
if k!=len(outstr) and outstr[k+1]==word2:
Common_weight += 1
Common_matrix[i][j] = Common_weight #该矩阵为对角矩阵
Common_matrix[j][i] = Common_weight
Common_matrix
array([[ 0., 40., 74., ..., 1., 2., 0.],
[40., 0., 89., ..., 5., 1., 0.],
[74., 89., 0., ..., 3., 7., 3.],
...,
[ 1., 5., 3., ..., 0., 0., 0.],
[ 2., 1., 7., ..., 0., 0., 0.],
[ 0., 0., 3., ..., 0., 0., 0.]])
pca = PCA()
pca.fit(Common_matrix)
print(pca.explained_variance_)
[3.59681418e+03 2.57418623e+03 1.79288586e+03 1.67372667e+03
1.18695679e+03 1.04028863e+03 4.52242914e+02 4.38975041e+02
2.37327920e+02 1.97686765e+02 1.27077285e+02 1.12286287e+02
8.40552854e+01 8.01627583e+01 7.72034051e+01 6.30862182e+01
6.18794807e+01 5.89707967e+01 5.52235273e+01 4.76101472e+01
4.39832328e+01 3.49581213e+01 3.25160473e+01 2.87693817e+01
2.70561777e+01 2.33345819e+01 2.21250587e+01 1.88362829e+01
1.81833834e+01 1.76934188e+01 1.60956808e+01 1.33247419e+01
1.28688783e+01 1.24309572e+01 1.21280938e+01 1.14754978e+01
1.05302302e+01 9.01258702e+00 8.69937699e+00 7.41907708e+00
6.89467238e+00 6.73732827e+00 6.14962289e+00 5.79471910e+00
5.55940401e+00 5.22959576e+00 4.47870817e+00 4.37280446e+00
3.84679691e+00 3.78036159e+00 3.35656710e+00 3.23349525e+00
2.98042542e+00 2.77355711e+00 2.69076289e+00 2.63616956e+00
2.45724076e+00 2.32774374e+00 2.11224456e+00 2.05810899e+00
2.02341970e+00 1.76793681e+00 1.57019017e+00 1.53852773e+00
1.47384101e+00 1.35073666e+00 1.29837687e+00 1.20064362e+00
1.10878475e+00 9.84228955e-01 9.18474926e-01 7.97371581e-01
7.38806585e-01 7.10508880e-01 5.58104831e-01 5.25211381e-01
4.92582935e-01 4.49022799e-01 4.08503421e-01 3.47110362e-01
3.41271014e-01 3.20202225e-01 2.45631297e-01 2.25055527e-01
1.80550905e-01 1.75896807e-01 1.65499309e-01 1.35772935e-01
1.03968821e-01 8.42313650e-02 7.38868381e-02 5.73960132e-02
4.82590579e-02 3.97044311e-02 3.39748463e-02 2.48509670e-02
1.82476486e-02 6.61779584e-03 2.10994452e-03 6.55773060e-28]
##确切的说i为15,我们应该保留16维
pca = PCA(n_components=15)
pca.fit(Common_matrix)
Common_matrix_result = pca.transform(Common_matrix)
Common_matrix_result[0]
array([ 337.10783854, 331.77857216, -72.1831355 , -38.38218952,
-111.35696168, -20.27592119, 1.48306142, 5.20167417,
-10.60660028, -4.97740985, 10.05946622, -14.09987901,
3.40770296, 7.18779101, -5.92802323])
Common_matrix_result
array([[337.10783854, 331.77857216, -72.1831355 , ..., 3.40770296,
7.18779101, -5.92802323],
[197.39480188, 34.63399558, 71.3163211 , ..., 7.03306794,
2.96929729, -0.53457165],
[136.89479852, -18.83874462, 0.36727075, ..., -3.23545457,
-19.63848631, 3.71452776],
...,
[-32.46650645, 1.23587158, -12.25391028, ..., -0.91545012,
-2.28432112, -6.78556454],
[-33.06335369, 2.49306806, -10.50006123, ..., 0.39074439,
-1.81223823, -0.55836831],
[-35.91121688, 3.66726663, -7.20357741, ..., 2.64527217,
0.82861681, -0.78501413]])
explained_variance = pca.explained_variance_
rate = 0.95
temp_total = 0
total = np.sum(explained_variance)
for i in range(len(explained_variance)):
temp_total+=explained_variance[i]
if temp_total/total>rate:
print(i)
print(temp_total)
15
13734.962228036768
16
13796.84170877376
17
13855.812505520373
18
13911.036032771228
19
13958.646180000589
20
14002.629412807499
21
14037.587534147891
22
14070.10358142578
23
14098.872963089287
24
14125.929140819479
25
14149.263722703376
26
14171.388781449403
27
14190.225064381704
28
14208.408447795797
29
14226.10186657381
30
14242.19754733391
31
14255.522289234843
32
14268.391167535501
33
14280.822124773917
34
14292.95021858613
35
14304.425716343983
36
14314.955946540536
37
14323.968533561134
38
14332.667910552675
39
14340.08698763387
40
14346.981660010963
41
14353.718988277114
42
14359.868611169384
43
14365.66333026816
44
14371.2227342739
45
14376.45233003071
46
14380.931038199744
47
14385.30384265938
48
14389.150639570926
49
14392.931001163075
50
14396.28756825981
51
14399.521063505461
52
14402.501488926458
53
14405.275046036317
54
14407.965808922761
55
14410.60197848486
56
14413.05921924606
57
14415.386962986073
58
14417.499207550265
59
14419.557316542356
60
14421.580736244849
61
14423.348673058505
62
14424.918863226947
63
14426.457390959751
64
14427.93123196489
65
14429.281968625894
66
14430.580345500879
67
14431.780989124654
68
14432.88977387889
69
14433.87400283366
70
14434.792477759307
71
14435.5898493404
72
14436.328655925865
73
14437.039164806198
74
14437.597269637456
75
14438.122481018094
76
14438.615063953475
77
14439.06408675211
78
14439.472590173207
79
14439.819700534785
80
14440.16097154829
81
14440.481173773594
82
14440.72680507033
83
14440.951860597388
84
14441.132411502824
85
14441.308308310208
86
14441.47380761959
87
14441.609580554308
88
14441.713549375301
89
14441.797780740253
90
14441.871667578325
91
14441.92906359156
92
14441.977322649454
93
14442.017027080554
94
14442.051001926882
95
14442.07585289391
96
14442.094100542487
97
14442.100718338326
98
14442.102828282841
99
14442.102828282841
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
plt.scatter(Common_matrix_result[:,1],Common_matrix_result[:,14],marker="o",cmap="coolwarm")