RDBMS清洗技术
Sentiment140数据集
斯坦福大学学生创建的包含推特推文以及根据推文内容所创建的正负面情绪数据(0,2,4)。
每个字段之间采用逗号分隔符(.csv),同时每个字段采用双引号进行封闭处理。
清洗要导入的信息
- MySQL导入程序是通过引号来界定字段文本内容的,多余的引号会给数据导入带来问题。
查找替换功能
“”""->"
“”->’
将数据导入MySQL
- 创建数据库
- 创建表
注意该表的创建与CSV文件的表的字段名称以及字段的属性值应该一致
可以使用LEN()和MAX()函数确定文本的最大长度max(len(f1:f498))
清洗异常数据
异常数据在这里指的是并非出自推文原始作者的转义字符
< | <(英文分号) |
---|---|
> | >(英文分号) |
& | &(英文分号) |
在上述初步清洗之后,将数据导入到数据库中进一步清洗,一般情况下希望尽量不要将脏数据导入到数据库中。
创建自己的数据表
create table sentiment140(
polarity enum('0','2','4') default null,
id int(11) primary key,
date_of_tweet varchar(28) default null,
query_phrase varchar(10) default null,
user varchar(10) default null,
tweet_text varchar(144) default null
)engine=MyISAM default charset= utf-8;
在数据文件所在位置使用MySQL命令行程序运行下面的数据导入语句
load data local infile 'cleanedTestData.csv'
into