数据挖掘
丹心向阳love
这个作者很懒,什么都没留下…
展开
-
安装pyspider步骤及遇到的坑和解决方案
pyspider安装步骤及问题解决1、 在anaconda prompt中输入pip install --user pyspider2、 下载phantomjs(对应系统版本)##用户界面localhost:50003、 解压后将phantomjs.exe复制到python的Scripts文件夹下4、 在cmd中启动pyspider all坑一:python3.7不兼容pyspider问...原创 2020-04-17 15:09:30 · 676 阅读 · 0 评论 -
相似地址识别算法
读取文档对要计算的多篇文档进行分词对文档进行整理成指定格式,方便后续进行计算计算出词语的词频【可选】对词频低的词语进行过滤建立语料库词典加载要对比的文档将要对比的文档通过doc2bow转化为词袋模型对词袋模型进行进一步处理,得到新语料库将新语料库通过tfidfmodel进行处理,得到tfidf通过token2id得到特征数稀疏矩阵相似度,从而建立索引得到最终相似度结果im...原创 2019-05-14 14:06:38 · 5680 阅读 · 0 评论