word2vec
文章平均质量分 61
sunnychou0330
这个作者很懒,什么都没留下…
展开
-
提取xml格式新闻内容
最开始解决方案有两种: 1) 使用正则表达式,匹配xml格式中的所有中文字符。 2) 使用BeautifulSoup的get_text()方法提取新闻内容 第一中方法,在进行中,后面更新 本文只展示第二种方法,因为无意之间发现了这个方法,简直不要太方便。 以下是初始文本:<?xml version="1.0" encoding="UTF-8"?><Body> <Title>成都网原创 2017-09-04 11:37:58 · 842 阅读 · 0 评论 -
文本向量化-计算文本相似的的方法-基于python语言的实现
本节主要讨论三种方法实现中文文本的向量化,编程环境python3.6.TF 词频的方法TFIDF 词频-逆文档频率Word2Vec 第一种TF方式,即是基于词频的方式,举一个最简单的例子:1:今天天气不错!2:今天天气很好。针对英文,我们可以直接跑程序,计算文本向量,英文单词都是以空格分割好的,但是对于中文,我们需要进行如下的几个处理步骤,分词、去停用词(使用在word2vec里,原创 2017-11-23 17:29:08 · 5889 阅读 · 0 评论