为了记录kaggle学习心得。
参考了大神文章。
1.http://www.cnblogs.com/lijingpeng/p/5787549.html
2.python机器学习及实战
from sklearn.datasets import fetch_20newsgroups
X, y = news.data , news.target
查看X的长度 , 以及X[0]的长度
print(len(X) ,len(X[0]),len(X[0][0]))
from bs4 import BeautifulSoup
import nltk ,re
news = fetch_20newsgroups(subset='all')
def news_to_sentences(news): news_text = BeautifulSoup(news).get_text()
# 去掉HTML标签,拿到内容
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
raw_sentences = tokenizer.tokenize(news_text)
sentences = []
for sent in raw_sentences:
sentences.append(re.sub('[^a-zA-Z]', ' ', sent.lower().strip()).split())
# 小写化所有的词,并转成词list用正则表达式取出符合规范的部分
return sentences
sentences = []

本文介绍了如何使用Python进行电影评论的情感分析,通过清理文本、使用Word2Vec模型训练词向量,进而进行情感分类。参考了Kaggle上的学习经验,并利用BeautifulSoup去除HTML标签,Nltk进行文本分句,最后使用gensim的Word2Vec模型进行词向量的训练。
最低0.47元/天 解锁文章
2050

被折叠的 条评论
为什么被折叠?



