《干净的数据——数据清洗入门与实践》(七)

RDBMS清洗技术

Sentiment140数据集
斯坦福大学学生创建的包含推特推文以及根据推文内容所创建的正负面情绪数据(0,2,4)。
每个字段之间采用逗号分隔符(.csv),同时每个字段采用双引号进行封闭处理。

清洗要导入的信息
  • MySQL导入程序是通过引号来界定字段文本内容的,多余的引号会给数据导入带来问题。
    查找替换功能
    “”""->"
    “”->’
将数据导入MySQL
  • 创建数据库
  • 创建表
    注意该表的创建与CSV文件的表的字段名称以及字段的属性值应该一致
    可以使用LEN()和MAX()函数确定文本的最大长度max(len(f1:f498))
清洗异常数据

异常数据在这里指的是并非出自推文原始作者的转义字符

< &lt(英文分号)
> &gt(英文分号)
& &amp(英文分号)

在上述初步清洗之后,将数据导入到数据库中进一步清洗,一般情况下希望尽量不要将脏数据导入到数据库中。

创建自己的数据表
create table sentiment140(
polarity enum('0','2','4') default null,
id int(11) primary key,
date_of_tweet varchar(28) default null,
query_phrase varchar(10) default null,
user varchar(10) default null,
tweet_text varchar(144) default null
)engine=MyISAM default charset= utf-8;

MyISAM和InnoDB引擎的区别

在数据文件所在位置使用MySQL命令行程序运行下面的数据导入语句

load data local infile 'cleanedTestData.csv'
into 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值