学习目标:
1.知道机器学习的步骤
2.知道nltk的使用
学习内容:
NLTK的使用步骤:
- 数据读取
- 清理数据
- 大小写转换
- 去除虚词
- 词根化
- 还原字符串
- 稀疏矩阵
- 最大过滤
- 建立词袋模型
完整代码:
import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# 1.数据读取:import the dataset
dataset = pd.read_csv('Restaurant_Reviews.tsv', delimiter