数据挖掘
文章平均质量分 71
播种生活
热爱技术,热爱生活
展开
-
python:删除文件中包含关键词的行
re.compile(),正则表达式在模式匹配前进行预编译;使用预编译代码比字符串快;test.txt中包含以下文字:1:li2:test3:num在运行完程序,生成的target.txt中,内容为1:li3:num代码清单如下:import relist = []matchPattern = re.compile(r'.+:test')原创 2014-04-15 16:15:21 · 7365 阅读 · 1 评论 -
hive(数据仓库工具)
54hive(数据仓库工具)编辑hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。转载 2014-04-12 09:23:01 · 494 阅读 · 0 评论 -
Hive简介
原文:http://www.distream.org/?p=393 1 和传统数据库的比较读时模式vs.写时模式传统数据库是写时模式(schema on write),即数据在写入数据库时对模式进行检查。Hive在数据加载时不进行验证,而是在查询时进行,是读时模式(schema on read)。写时模式有利于提升查询性能,因为数据库可以对列进行索引,并对数据压缩。但作为权衡,此时转载 2014-04-13 11:06:43 · 545 阅读 · 0 评论