- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 Programming HIVE Chapter 7-14 读书笔记
Chapter7 HiveQL : Views Hive不支持物化视图 a view will be shown using SHOW TABLES. 不可以把view作为insert或者load的对象 Chapter8 HiveQL: Indexes Hive has limited index properties. 索引相关的技术还没有什么发展,可
2014-02-04 23:55:15 794
原创 Programming Hive Chapter1-6 读书笔记
Chapter1 there is no record-level insert, delete or update high latency : so it's more close to OLAP other than OLTP , you know, OLAP is for analysis. (but it's also not satisifying the "online" par
2014-02-04 23:53:33 810
原创 关于最近的私活--技术篇
最近两周在做的这个项目的需求是这样的。客户从某些地方爬取了一些商品数据,存在txt里面(可以认为一行数据是一个item),要导入到指定模板格式的Excel中,简单说txt的一行数据就是excel的一行data(实际上在业务上讲有变体的概念,每个txt在excel中可能对应1到N行),但excel中数据的填写位置要根据模板不同做选择和确定。因为txt里的数据是爬虫直接得到的,可能有些内容不能导入到e
2014-01-18 15:44:20 1277
原创 关于元数据(Metadata) -- 菜鸟篇
这个问题和工作相关,最近思考也比较多,可以发表些个人看法。但工作日浅,希望以后有更深的理解再做更新。 为什么要有元数据? 这个问题是我加入公司第一个疑问的问题,毕竟应用在三层或者MVC结构中最终要和数据库的交互,无论是结构化还是非结构化的数据源,都要转成SQL或者类似SQL的查询语言,对于一个技术人员而言,自然而然觉得用户的需求直接被转化为SQL语句是自然而然的事情。定义元数据感觉像是
2014-01-03 23:50:19 3434
原创 MySQL索引基础--菜鸟篇
最近阅读了一些关于MySQL数据库的书籍,强烈推荐《高性能MySQL》和《数据库性能调优--原理与技术》(均为第3章),对于MySQL常见索引的实现原理讲得非常清楚。字太多图不好截不在这里抄了,在网上搜了下MySQL索引相关的文章,基本没有超过它们讲的范畴,感觉还是先阅读书籍本身再博览博客较好。 印象比较深刻的概念:聚簇索引(cluster index),覆盖索引(covering in
2014-01-03 23:18:08 924
原创 《数据仓库工具箱:维度建模的完全指南》笔记总结
此篇是关于本书的读书笔记总结,因为在这方面的理解还是比较初级的状态,有误之处还望指教。 个人认为这本书对于数据仓库的建模思路有一个很明确的描述:围绕事实表建立维度表。对数据仓库的建设有关键步骤上的指点: 四步流程: 1. 确定业务流程 2. 确定粒度 3. 确定维度 4. 确定事实表 另外一方面,由于这本书的出版时间大约在200
2014-01-01 22:06:54 5905
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人