NLP TensorFlow
NLP TensorFlow
阿拉斯加大闸蟹
JDcloud;ByteDance;XueQiu;YiChe;CATARC
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
关键词抽取,从网上找的总结,实战稍后
原因是股票社区的文章,经常出现一些水军,整天讨论些风牛马不相及的内容,然后大肆的破坏社区氛围,基于此要对一个文章进行主题的抽取,有了上一篇的相似贴的分词经验,下一步应该会顺利些https://www.zhihu.com/question/21104071作者:刘知远链接:https://www.zhihu.com/question/21104071/answer/24556905来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。我博士阶段的研究课题就是关..原创 2020-06-09 16:56:42 · 2727 阅读 · 0 评论 -
文本相似性处理(好比论文查重)
首先介绍simHashsimhash算法分为5个步骤:分词、hash、加权、合并、降维直接给例子,理解的更加生动些吧:https://blog.csdn.net/chinawangfei/article/details/82385842 1:分词。首先,判断文本分词,形成这个文章的特征单词。然后,形成去掉噪音词的单词序列。最后,为每个分词加上权重。我们假设权重分为5个级别(1~5),比如:“ 美国“51区”雇员称内部有9架飞碟,曾看见灰色外星人 ” ==> 分词后为 “ 美国(4) 51原创 2020-06-05 17:48:08 · 4775 阅读 · 0 评论
分享