大数据开发
文章平均质量分 78
du_qi
投身AI,专注机器学习,坚持不懈,踏实进取!
展开
-
对一个无法一次读入内存的大文件进行排序的代码实例
基本思想:将大文件分割成小文件,对每个小文件进行排序,最后合并所有小文件转载 2016-08-23 11:17:06 · 2889 阅读 · 1 评论 -
数据库相关零散知识点记录
以下内容记录数据库相关的一些零散知识点,主要以Hive为主,内容不定期更新(1)MySQL数据库基础知识数据库的底层存储通常使用文件系统,它可以是普通操作系统文件、专用操作系统文件,甚至可能是磁盘分区,其实就是比普通的文件系统多了数据管理的功能。数据库存储数据的单位为表格,可想像成pandas中的DataFrame,有四种操作数据的方式:查询、插入、更新、删除。数据库的基本操作见《原创 2016-07-20 15:31:56 · 564 阅读 · 0 评论 -
《Hive编程指南》学习笔记
以下内容记录了《Hive编程指南》各个章节的主要知识要点,内容会不定期增加第3章 数据类型和文件格式Hive支持基本数据类型和struct、map、array三种集合类型,三种集合类型的数据在文件存储时将使用不同的分隔符,默认的记录和字段分割符如表3-3所示(p44),分割符还可以由用户自行定义(p46上方语句)。传统数据库是写时模式,即数据在写入数据库时对模式原创 2016-07-20 15:23:25 · 1257 阅读 · 0 评论 -
加载本地文件到Hive表出现NULL列的解决办法
举例说明,现有本地文件,每行两列,内容如下:0000000026310400 F0000000029858520 F0000000042620180 F0000000044783820 F0000000045771260 F创建一个Hive表,使用如下语句:create table if no原创 2016-05-18 20:23:11 · 4360 阅读 · 0 评论 -
SQL in 与inner join查询结果的区别
in和inner join在大多数情况下都是返回两表的交集,但是两者还是有区别的,如下例子mysql> select * from a;+------+------+| id | name |+------+------+| 1 | a || 2 | b || 3 | c |+------+------+mysql> se原创 2016-05-03 16:06:19 · 10378 阅读 · 0 评论 -
SkLearn学习笔记
SkLearn学习笔记原创 2017-03-12 13:20:34 · 1235 阅读 · 0 评论