import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
# 读取文件
df = pd.read_table("./SMSSpamCollection",header=None)
df.head()
每一列都是一个特征值(文件随便搜垃圾短信数据集都能下载得到)
# 重命名数据中的两列,使得拥有更好的可读性
df.rename(columns={
0:"Label", 1:"Text"},inplace=True)
df.head()
把字符串类型的标签直接改为0和1,这样就可以直接输入到模型中去。
# 把"ham"和"spam"标签重新命名为数字0和1
df["numLabel"] = df