![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
无敌小熊猫
一只不情愿的码农。
展开
-
jieba分词
jieba分词导入的包import jiebaimport jieba.possegimport jieba.analyse两种分词模式jieba.cut()jieba.cut_for_search()自定义词典jieba.load_userdict('user.txt')调整词典add_word(word,freq=None,tag=None)del_word(word)jie...原创 2018-10-06 16:16:30 · 214 阅读 · 3 评论 -
自然语言处理基础-Kaggle竞赛题
题目-Predict the relevance of search results on homedepot竞赛题地址:https://www.kaggle.com/c/home-depot-product-search-relevance参考github上的原文地址:https://github.com/yjfiejd/Product_search_relevance_NLP-/blob/...原创 2019-08-27 21:08:43 · 756 阅读 · 0 评论 -
词向量到word2vec
自然语言处理的应用 1-离散表示方法-one-hot、bag of word 等bi-gram方法实例如下运用离散表示的问题有:2-分布式表示方法共现矩阵实例NNLM语言模型表示NNLM结构如下3-word2vec3.1 CBOW负例采样及skip-gram...原创 2019-08-28 18:54:25 · 107 阅读 · 0 评论 -
利用中文维基百科训练词向量模型
本文通过对中文维基百科数据的处理用来训练word2vec模型,更深入的了解词向量模型的训练过程,并且对文本的处理进行掌握python代码如下所示(添加详细注释):# -*-coding: UTF-8 -*-# @Time:2019/8/28 19:02# @author superxjz# @funcimport logging, jieba, os, refrom gensim.m...原创 2019-08-28 21:06:13 · 755 阅读 · 0 评论 -
情感分析代码(阅读+书写+注释)
对影评数据进行NLP情感分类(二分类的问题)kaggle竞赛试题地址:https://www.kaggle.com/c/word2vec-nlp-tutorial/数据集地址:链接:https://pan.baidu.com/s/1eR27IG5LmSBULJHtYGQi2Q 提取码:gh70复制这段内容后打开百度网盘手机App,操作更方便哦注意事项-首先要对影评数据做一些预处理...原创 2019-08-29 21:17:12 · 3188 阅读 · 0 评论 -
中文情感分类
本小结是对中文评论进行处理,利用word2vec工具获得特征数据,进而完成情感分析的目的注意:本文重点是如何获得特征向量根据项目本身的语料情况,一条评论就是一个txt文档,有两个语料文件:pos文件下包含1000条积极的评论,neg文件下包含1000条消极的评论1-初始语料的预处理-把正向和负向评论分别规整到一个txt文件中,实施代码如下import loggingimport os,o...原创 2019-08-30 20:54:38 · 963 阅读 · 2 评论 -
利用LSTM來生成文本-代碼詳解(部分)
# -*-coding: UTF-8 -*-# @Time:2019/9/119:44# @author superxjz# @func LSTM#導入實驗所需要的各種工具包import numpyfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import Dro...原创 2019-09-01 20:45:11 · 189 阅读 · 0 评论 -
LDA模型做主题分类
利用LDA模型对邮件内的内容做主题分类# -*-coding: UTF-8 -*-# @Time:2019/9/614:59# @author superxjz# @func 邮件分类#导入需要的一些库import numpy as npimport pandas as pdimport refrom gensim import corpora,models,simila...原创 2019-09-06 19:58:15 · 2465 阅读 · 0 评论 -
IMDB影评分析实验
数据集资源:http://www.imdb.com/interfaces/该数据集中包含了5万条影评(包括正面评价和负面评价),利用这5万条影评进行数据分析。数据格式:5万条影评分别处于5万个txt文件中工作步骤如下:1-将这50000个txt文件(评论)整合成一个表格,表格分为两列,第一列表示评论的内容,第二列表示评论是属于正面(用1表示)还是负面(用0表示)2-将评论的内容(原始...原创 2019-09-11 19:13:02 · 739 阅读 · 0 评论