nlp task3
just__we
just we就是just we 既不伟大也不卑微
展开
-
Task3 文本向量特征 TF-IDF处理
分词 统计词频并将其向量化 from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() corpus = ['I come to China to travel', 'This is a car popular in China', 'I l...转载 2019-05-16 18:56:47 · 428 阅读 · 0 评论 -
Task 4word2vec
one-hot编码 one-hot编码通俗的理解就是创建一个词表,比如[‘a’,‘b’,‘c’,‘d’],而假如这个词出现则其对应的位置为1,其余为0。 a:[1,0,0,0] b:[0,1,0,0] c:[0,0,1,0] d:[0,0,0,1] 所对应的问题,有时语料库会达到几百万个词,则每个词的为度都要达到几百万维这样的话计算将会出现极大的麻烦,而且向量过于稀疏,无法与上下文进行联系且不含有...原创 2019-05-18 20:21:22 · 124 阅读 · 0 评论 -
基于Tensorflow实现cnn字符级中文分类
代码地址:https://github.com/gaussic/text-classification-cnn-rnn 数据集 采用了清华NLP组提供的THUCNew新闻文本分类数据集的一个子集。数据集可在此链接http://thuctc.thunlp.org/下载。 本次训练有十个分类,每个分类6500条,总共65000条新闻数据。 具体类别如下 体育、财经、房产、家具、教育、科技、时政、游戏、...原创 2019-07-15 15:45:25 · 430 阅读 · 0 评论