数据基础
文章平均质量分 95
diggerTT
稳扎稳打,步步为营
展开
-
理工学---数据基础---数据库---mysql数据库操作(二)---JOIN用法
3、mysql的john用法总结3.1 左”的笛卡尔积和“右”的笛卡尔积根据mysql join 连接的方式我把它归为两类,“左”的笛卡尔积和“右”的笛卡尔积。 假设有两个表A和B,分别有m行和n行 1、“左”的笛卡尔积就是我们通常的笛卡尔积,也就A的所有元素依次连接B的第一个元素,然后A的所有元素依次连接B的第二个元素,依此类推,这样最终得到的表就有m*n行;“左”的笛卡尔积有Inner jo原创 2017-11-07 20:52:08 · 530 阅读 · 2 评论 -
数据基础---《利用Python进行数据分析·第2版》第12章 pandas高级应用
之前自己对于numpy和pandas是要用的时候东学一点西一点,直到看到《利用Python进行数据分析·第2版》,觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...转载 2018-10-19 21:21:04 · 448 阅读 · 1 评论 -
数据基础---《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式
之前自己对于numpy和pandas是要用的时候东学一点西一点,直到看到《利用Python进行数据分析·第2版》,觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...转载 2018-10-19 17:24:05 · 1985 阅读 · 0 评论 -
数据基础---《利用Python进行数据分析·第2版》第8章 数据规整:聚合、合并和重塑
之前自己对于numpy和pandas是要用的时候东学一点西一点,直到看到《利用Python进行数据分析·第2版》,觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...转载 2018-09-30 14:46:43 · 1774 阅读 · 0 评论 -
数据基础---《利用Python进行数据分析·第2版》第7章 数据清洗和准备
要转载 2018-09-29 13:05:58 · 880 阅读 · 0 评论 -
数据基础---《利用Python进行数据分析·第2版》第11章 时间序列
之前自己对于numpy和pandas是要用的时候东学一点西一点,直到看到《利用Python进行数据分析·第2版》,觉得只看这一篇就够了。非常感谢原博主的翻译和分享。...转载 2018-10-17 23:16:35 · 1318 阅读 · 1 评论 -
数据基础---《利用Python进行数据分析·第2版》第10章 数据聚合与分组运算
在转载 2018-10-17 23:15:35 · 673 阅读 · 0 评论 -
理工学---数据基础---大数据---Spark SQL 中的结构化数据
来源《Spark快速大数据分析》1、 结构化数据Spark SQL 是在 Spark 1.0 中新加入 Spark 的组件,并快速成为了 Spark 中较受欢迎的操作结构化和半结构化数据的方式。结构化数据指的是有结构信息的数据——也就是所有的数据记录都具有一致字段结构的集合。Spark SQL 支持多种结构化数据源作为输入,而且由于 Spark SQL 知道数据的结构信息,它还可以从这些数据源中只读原创 2018-01-22 09:16:22 · 1584 阅读 · 1 评论 -
数据基础---josn格式数据相关操作
java中josn格式数据相关操作原创 2018-05-22 17:06:16 · 1097 阅读 · 1 评论 -
理工学---数据基础---数据库---mysql数据库操作(一)---基础操作
1、mysql常识本文前面主要是对《mysql_5.5中文参考手册》部分内容的整理。 说明:登录mysql后,可以看到mysql> 的提示符,可以输入相关命令;输入命令后,需要以“;”号结束,否则会一直等待,少数的命令不需要“;”号,如QUIT;多个短命令,可以放在一起,中间用“;”号隔开;我们也可借助外部工具,如navicat来管理数据为库,在navicat中单个查询命令也可以以“;”号结束,但原创 2017-11-07 11:12:07 · 11432 阅读 · 2 评论 -
数据基础---numpy、pandas使用教程
1、基础篇官网文献,或者更详细的资料 numpy的主要目标是构造由同种元素组成的多维数组,也就是一张在的表格,因为python自带的array.array,只能创建一维数组,并且只有简单的功能。所有的元素都是同一数据类型,元素通过索引定位,索引为整数,用元组来表示。在numpy中每一个维度都被称为轴,而轴的数目就是多维数组的秩。 例如:[1,2,3]是一个秩为1的数组,该轴的长度为3,可以表示三原创 2017-12-18 09:35:55 · 6916 阅读 · 0 评论 -
理工学---数据基础---不同软件中的数据类型
1、python中的数据类型1.1数据的组成python中数据包含三部分: 身份、类型、值 身份-例如给变量a赋值,a=1,id(a)可得到a的身份,为长整型,代表内存地址。 1.2数据类型python中不需要声明数据类型,在给变量赋值;时自动生成数据类型。 python中的数据类型包括: 数值型(int,long,float,complex)、 布尔型(boolean)、 字符串(s原创 2017-11-07 10:52:42 · 1407 阅读 · 1 评论 -
理工学---数据基础---大数据---spark中的数据类型
本文是对官方文档的翻译整理1、数据类型Local vector(本地向量) Labeled point(带标签数据点) Local matrix(本地矩阵) Distrubuted matrix(分布式矩阵):RowMatrix、IndexedRowMatrix、CoordinateMatrix、BlockMatrix MLlib支持存储在单个机器上的本地的向量和矩阵,以及一个或多个RDD组原创 2017-12-01 09:35:15 · 8047 阅读 · 1 评论 -
数据基础---数据可视化
1、 python中数据可视化1.1、 seaborn库python中最常用的绘图工具包是matplotlib库,但是matplotlib中很多参数需要自己设置,灵活但繁琐,而且常常不知道如何设置(太多要设置的了)。这里主要对seaborn库进行介绍。官方文档。 seaborn中的主要接口:1.1.1、 轴和界面设置方面FaceGrid(data[,row,col,hue,col_wrap,…])原创 2017-12-09 13:28:23 · 7342 阅读 · 0 评论 -
理工学---数据基础---大数据---spark学习之数据预处理和特征提取
1、 MovieLens数据集介绍MovieLens 100k数据集,下载地址:http://files.grouplens.org/datasets/movielens/ml-100k.zip MovieLens数据集保存了用户对电影的评分。基于这个数据集,我们可以测试一些推荐算法、评分预测算法。 MovieLens 100k 该数据集记录了943个用户对1682部电影的共100,000个评原创 2017-12-09 13:31:39 · 5119 阅读 · 1 评论 -
数据基础---postgresql和greenplum的使用
PostgreSQL 临时表PostgreSQL 临时表PostgreSQL 之 with查询create temp table countsXXX with (appendonly=true,compresstype=quicklz) on commit drop as select XXX,YYY,count(*) as countXXX from temp.table_Z grou...原创 2018-12-01 11:14:23 · 1640 阅读 · 0 评论