![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
用户识别
LX1_1XL
这个作者很懒,什么都没留下…
展开
-
Gender Prediction in English-Hindi Code-Mixed Social Media Content : Corpus and Baseline
2018.6.19英语-印地语代码混合社交媒体内容的性别预测:语料库和基线系统。数据集、代码、及演示界面https://github.com/taspinar/twitterscraperAbstract 剖析作者摘要是通过文本自动确定作者性别、年龄等方面的问题,在计算机语言学中越来越受到重视。很多用户在社交媒体上发布叫做“代码混合”的文章时经常会改变语言,这在文本分类和作者剖析方面提出了一些...翻译 2018-06-22 10:03:22 · 346 阅读 · 0 评论 -
利用余弦相似性算法进行文本特征相似度计算
余弦相似度算法,通过将文本转化为向量,通过计算两个向量夹角间的余弦值作为衡量两个文本的相似性。余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越使用余弦相似度计算两段文本的相似度。 算法思路:1、分词;2、列出所有词;3、分词编码;4、词频向量化;5、套用余弦函数计量两个句子的相似度。 句子A:这只皮靴号码大了。那只号码合适。 句子B:这只皮靴号码不...转载 2019-07-09 15:55:59 · 1759 阅读 · 0 评论