主流分词工具的词库.zip
常见分词算法用到的词典库(jieba、IK、mmseg、word),但是词典库没有词性,
impala开发
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。
cassandra 权威指南
Cassandra权威指南pdf带目录书签.完整版;
Cassandra权威指南.带目录书签.完整版
Cassandra权威指南.带目录书签.完整版
Cassandra权威指南.带目录书签.完整版
oracle PLSQL 从入门到精通
内容简介 · · · · · ·
《Oracle PL/SQL从入门到精通》以面向应用为原则,深入浅出地介绍了Oracle平台上使用PL/SQL语言进行数据库开发的技术。通过大量的示例,详细介绍了PL/SQL的语言特性、使用技巧,同时配以两个在实际工作中的案例深入地剖析了使用PL/SQL进行Oracle开发的方方面面。 《Oracle PL/SQL从入门到精通》附带1张DVD光盘,内容为作者为《Oracle PL/SQL从入门到精通》录制的全程语音教学视频及《Oracle PL/SQL从入门到精通(附光盘)》所涉及的源代码。
《Oracle PL/SQL从入门到精通》分为5大篇共20章。涵盖的内容主要有PL/SQL语言基础、开发环境、变量与类型、控制语句、数据表的管理和查询、数据表的操纵、使用PL/SQL的记录与集合、各种内置函数、游标、事务处理、异常处理、子程序、包、面向对象的开发等技术点。通过示例性的代码,由浅入深,详细介绍了每一个技术要点在实际工作中的应用,对各种技术要点的应用场合进行了细致的分析。
作者简介 · · · · · ·
丁士锋,毕业于国防科技大学计算机学院。有多年的大型软件系统开发经验,有近8年的.NET软件项目研发经验,擅长C#语言,对.NET框架及其底层机制有深入的理解。曾经任职于三星电子、诺基亚等公司,从事软件项目开发。对企业软件的设计与架构有深入的研究和大量经验,主导过多个大型的企业分布式项目的开发。
Apache Sqoop Cookbook.pdf
目前国内还没有关于sqoop的书,这是一本外国的文档,看了一下还是很不错的,希望对大家有所帮助
talend用户手册
talend 推出的一体化集成平台可以实现数据集成,ETL,数据质量,主数据管理(MDM),应用集成等各种项目。Talend的解决方案性能稳定,使用便利,扩展简易,强大灵活,因而已成为世界上应用与部署最为广泛的集成解决方案。图形化的界面,拖拉式的方式
无需代码可使用Hadoop、Spark、
Spark Stream和NoSQL数据库
redis学习pdf
redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。
hive编程指南
hive编程指南完整版pdf下载,适合hive新手下载阅读,
第1章基础知识
1.1Hadoop和MapReduce综述
1.2Hadoop生态系统中的Hive
1.2.1Pig
1.2.2HBase
1.2.3Cascading、Crunch及其他
1.3Java和Hive:词频统计算法
1.4后续事情
第2章基础操作
2.1安装预先配置好的虚拟机
2.2安装详细步骤
2.2.1装Java
2.2.2安装Hadoop
2.2.3本地模式、伪分布式模式和分布式模式
2.2.4测试Hadoop
2.2.5安装Hive
2.3Hive内部是什么
2.4启动Hive
2.5配置Hadoop环境
2.5.1本地模式配置
2.5.2分布式模式和伪分布式模式配置
2.5.3使用JDBC连接元数据
2.6Hive命令
2.7命令行界面
2.7.1CLI选项
2.7.2变量和属性
2.7.3Hive中“一次使用”命令
2.7.4从文件中执行Hive查询
2.7.5hiverc文件
2.7.6使用HiveCLI的更多介绍
2.7.7查看操作命令历史
2.7.8执行shell命令
2.7.9在Hive内使用Hadoop的dfs命令
2.7.10Hive脚本中如何进行注释
2.7.11显示字段名称
第3章数据类型和文件格式
3.1基本数据类型
3.2集合数据类型
3.3文本文件数据编码
3.4读时模式
第4章HiveQL:数据定义
4.1Hive中的数据库
4.2修改数据库
4.3创建表
4.3.1管理表
4.3.2外部表
4.4分区表、管理表
4.4.1外部分区表
4.4.2自定义表的存储格式
4.5删除表
4.6修改表
4.6.1表重命名
4.6.2增加、修改和删除表分区
4.6.3修改列信息
4.6.4增加列
4.6.5删除或者替换列
4.6.6修改表属性
4.6.7修改存储属性
4.6.8众多的修改表语句
第5章HiveQL:数据操作
5.1向管理表中装载数据
5.2通过查询语句向表中插入数据
5.3单个查询语句中创建表并加载数据
5.4导出数据
第6章HiveQL:查询
6.1SELECT…FROM语句
6.1.1使用正则表达式来指定列
6.1.2使用列值进行计算
6.1.3算术运算符
6.1.4使用函数
6.1.5LIMIT语句
6.1.6列别名
6.1.7嵌套SELECT语句
6.1.8CASE…WHEN…THEN句式
6.1.9什么情况下Hive可以避免进行MapReduce
6.2WHERE语句
6.2.1谓词操作符
6.2.2关于浮点数比较
6.2.3LIKE和RLIKE
6.3GROUPBY语句
6.4JOIN语句
6.4.1INNERJOIN
6.4.2JOIN优化
6.4.3LEFTOUTERJOIN
6.4.4OUTERJOIN
6.4.5RIGHTOUTERJOIN
6.4.6FULLOUTERJOIN
6.4.7LEFTSEMI—JOIN
6.4.8笛卡尔积JOIN
6.4.9map—sideJOIN
6.5ORDERBY和SORTBY
6.6含有SORTBY的DISTRIBUTEBY
6.7CLUSTERBY
6.8类型转换
6.9抽样查询
6.9.1数据块抽样
6.9.2分桶表的输入裁剪
6.10UNIONALL
第7章HiveQL:视图
7.1使用视图来降低查询复杂度
7.2使用视图来限制基于条件过滤的数据
7.3动态分区中的视图和map类型
7.4视图零零碎碎相关的事情
第8章HiveQL:索引
8.1创建索引
8.2重建索引
8.3显示索引
8.4删除索引
8.5实现一个定制化的索引处理器
第9章模式设计
9.1按天划分的表
9.2关于分区
9.3唯一键和标准化
9.4同一份数据多种处理
9.5对于每个表的分区
9.6分桶表数据存储
9.7为表增加列
9.8使用列存储表
9.8.1重复数据
9.8.2多列
9.9(几乎)总是使用压缩
第10章调优
10.1使用EXPLAIN
10.2EXPLAINEXTENDED
10.3限制调整
10.4JOIN优化
10.5本地模式
10.6并行执行
10.7严格模式
10.8调整mapper和reducer个数
10.9JVM重用
10.10索引
10.11动态分区调整
10.12推测执行
10.13单个MapReduce中多个GROUPBY
10.14虚拟列
第11章其他文件格式和压缩方法
11.1确定安装编解码器
11.2选择一种压缩编/解码器
11.3开启中间压缩
11.4最终输出结果压缩
11.5sequencefile存储格式
11.6使用压缩实践
11.7存档分区
11.8压缩:包扎
……
第12章开发
第13章函数
第14章Streaming
第15章自定义Hive文件和记录格式
第16章Hive的Thrift服务
第17章存储处理程序和NoSQL
第18章安全
第19章锁
第20章Hive和Oozie整合
第21章Hive和亚马逊网络服务系统(AWS)
第22章HCatalog
第23章案例研究
术语词汇表