自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 数据仓库快速入门

记录了实习过程中Hive SQL常用方法工具Hive Sql特点:通过类 SQL 来分析大数据,而避免了写 MapReduce Java 程序来分析数据,这样使得分析数据更容易。Hive 本身并不提供数据的存储功能Hive 是将数据映射成数据库和一张张的表,库和表的元数据信息一般存在关系型数据库上能够存储很大的数据集,并且对数据完整性、格...

2019-05-16 15:50:00 396 1

原创 宇宙无敌PAT-A不完全考纲

    大家新年快乐!    最近一直有朋友问我“考研上机怎么准备?”、“马上找工作,想考PAT练练手”等...其实本来刚考完PAT的时候,我是想总结一下各个平台以及教程的所有题目合成一本模板教程。但是我想想吧,这样让大家太偷懒了,不利于大家的智力发展。还是建议大家自己先做一遍,然后对着答案改,然后形成自己的模板比较好(其实是我懒 /(T_T)/~~~)...

2019-02-07 18:45:00 895 3

原创 大作业合集

今天开始整理大作业。大一用 英语描述 安装Apache云计算开放实验  主要为云计算资源调度优化算法的C语言代码实现。算法包括:Min-min, Min-max, RelativeCost, Sufferage, PenaltyBased, ListSufferage, TPB。最后对7个算法进行分类总结。现在看看当时的文档,还是非常简陋。p...

2018-12-21 15:00:00 2732 1

原创 宇宙无敌数模讲义

前言   我参加了17年国赛和18年美赛,一个省一(来源于njupt),一个美二。可以说都是很遗憾了。但是我电脑里还有当初各种论坛爬的资料,不分享出来也太可惜了!我自认为我们组的论文也是写的很好的,可以借鉴,不然网上找的质量都太差了呀~   说起数模学习的历史,我想说要不是这么曲折我也不会学会这么多东西。我本来是想负责论文的,于是前期研究了很多论文写法,也跟过老师写了一点科研文章,所以我写摘...

2018-12-20 21:56:00 272 2

原创 记一次——用sql进行数据清洗实例

数据库中有某段用户上报日志,记录着用户的一些操作行为。现要将其清洗后,并筛选出我们感兴趣的用户后,并整理为算法要求的格式。要求过程中只能用sql。0 引言源数据表介绍和分析数据规模:每天2亿+条数据;含义:每人每天登陆一次app则产生一条记录;原始数据表字段如下所示:Original_tableutdiduser_idcontentdszxcvb...

2020-03-29 21:15:26 2830

原创 MICK-SQL进阶教程 1.4 HAVING 子句的力量

1.4 HAVING 子句的力量寻找缺失的编号-- 在表SeqTbl中有缺失的连续编号{1,2,3,5,6,8}(缺4和7)-- 1、查询表中是否有编号确实-- 面向过程的思路:-- (1)对“连续编号”列按升序或者降序进行排序。-- (2)循环比较每一行和下一行的编号。-- SQL会将多条记录作为一个集合来处理,因此如果将表整体看作一个集合-- 如果有查询...

2020-03-23 21:50:07 220

原创 MICK-SQL进阶教程

学习笔记~目录第一章 神奇的SQL1.1 CASE表达式1.2 自连接的用法1.3 三值逻辑和NULLSQL进阶教程

2020-03-21 15:25:52 777

原创 MICK-SQL进阶教程 1.3 三值逻辑和NULL

让自己愈发觉得自己学艺不精的一章、、、要点:三值逻辑:true, false, unknown必须写成“IS NULL”,而不是“= NULL”:对 NULL 使用比较谓词后得到的结果总 是 unknown。而查询结果只会包含 WHERE 子句里的判断结果为 true 的行, 不会包含判断结果为 false 和 unknown 的行。NULL 既不是值也不是变量。NUL...

2020-03-21 15:19:41 321

原创 MICK-SQL进阶教程 1.2 自连接的用法

针对相同的表进行的连接被称为“自连接”(self join)。一旦熟练掌握自连接技术, 我们便能快速地解决很多问题。可重排列、排列、组合-- 现有张表Products,内有一列name包含3个元素:苹果、橘子、香蕉-- 生成有序对(笛卡尔乘积)SELECT P1.name AS name_1, P2.name AS name_2FROM Products P1, Pro...

2020-03-21 15:17:02 216

原创 MICK-SQL进阶教程 1.1 CASE表达式

1.1 CASE表达式表达式概述-- 简单 CASE 表达式 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END-- 搜索 CASE 表达式CASE WHEN sex = '1' THEN '男' WHEN sex = '2' THEN '女' ELSE '其他' EN...

2020-03-21 15:15:38 393

原创 企业大数据平台仓库架构建设思路

实习过后需要学习一下才能更有体会~~~学习来源:https://blog.csdn.net/huanggang028/article/details/52168092问题:数据爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。总体思路新环境下的数据应用特征:业务变化快数据来源多应用深度深系统耦合多大数据平台...

2019-10-03 19:25:07 126

原创 企业大数据平台仓库架构建设思路

实习过后需要学习一下才更有体会~学习来源:https://blog.csdn.net/huanggang028/article/details/52168092问题:数据爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。总体思路新环境下的数据应用特征业务变化快 数据来源多 应用深度深 系统耦合多大数据平台特征...

2019-08-30 12:04:06 224

原创 《利用python进行数据分析》笔记

挑着看了一点点点点....第七章 数据规整化:清理、转换、合并、重塑第十章 时间序列

2019-08-14 17:32:00 159

原创 《利用python进行数据分析》第十章

第十章 时间序列日期和时间数据类型及工具datetime 以毫秒形式存储日期和时间字符串和datetime的互相转换str:将datetime对象和pandas的Timestamp对象转换为字符串strptime:将字符串转化为日期日期的范围、频率以及移动生成日期范围date_rangeindex = pd.date_rang...

2019-08-14 17:31:00 175

原创 《利用python进行数据分析》第七章

第七章 数据规整化:清理、转换、合并、重塑合并数据集pandas.merge:根据键将不同DataFrame中的行连接起来。#默认做inner连接pandas.merge(df1, df2, on=['key_a', 'key_b',...], how='outer')# 两个对象列名不同可以分别指定pandas.merge(df1, df...

2019-08-14 17:30:00 289

原创 《Python数据分析与挖掘实战(张良均等)》笔记

实习结束后补一下数据分析概念相关知识:第三章第四章数据挖掘建模过程定义挖掘目标数据取样抽取一个与目标相关的样本数据子集。抽取数据的标准:相关性、可靠性、有效性衡量数据质量的标准:完整无缺、指标齐全、反应正常状态下的水平抽样的常见方式:随机抽样、等距抽样、分层抽样、从起始顺序抽样、分类抽样数据探索主要包括:异常值分析、缺失值分析、相关...

2019-08-13 11:23:00 532

原创 《Python数据分析与挖掘实战》第三章 数据探索

样本数据集的数量和质量是否满足模型构建要求?是否出现没设想过得数据状态?其中是否有明显的规律和趋势?各因素中有什么样的关联性?数据探索:对样本数据集的结果和规律进行分析数据质量分析主要任务:检查原始数据中是否存在脏数据脏数据包括:缺失值、异常值、不一致的值、重复值缺失值分析缺失包括:记录缺失、某个字段缺失缺失产生原因有些信息无法获取...

2019-08-13 11:20:00 399

原创 《Python数据分析与挖掘实战》第四章 数据预处理

主要包括数据清洗、数据集成、数据变幻和数据规约。数据清洗删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。缺失值处理方法:删除记录、数据差补和不处理数据插补方法:均值/中位数/众数、固定值、最近临插补、回归、插值(拉格朗日插值法、牛顿插值法)异常值处理方法:删除含有异常值的记录、视为缺失值、...

2019-08-13 11:17:00 411

原创 MICK-SQL基础教程(第二版) 第八章 SQL高级处理

第八章 SQL高级处理窗口函数窗口函数也称为 OLAP函数 。OLAP 是 OnLine Analytical Processing 的简称,意思是对数据库数据 进行实时分析处理。例如,市场分析、创建财务报表、创建计划等日常性商务工作。 窗口函数就是为了实现 OLAP 而添加的标准 SQL 功能 。窗口函数大体可以分为以下两种。能够作为窗口函数...

2019-03-06 17:03:00 197

原创 MICK-SQL基础教程(第二版)第七章 集合运算

第七章 集合运算表的加减法通过集合运算,可以得到两张表中记录的集合或者公共记录的集合,又或者其中 某张表中的记录的集合。像这样用来进行集合运算的运算符称为集合运算符。集合运算符会除去重复的记录表的加法——UNION注:作为运算对象的记录的列数必须相同作为运算对象的记录中列的类型必须一致可以使用任何SELECT语句,但ORDER BY子句只...

2019-03-06 15:45:00 240

原创 MICK-SQL基础教程(第二版) 第六章 函数、谓词、CASE表达式

第六章 函数、谓词、CASE表达式函数函数大致可以分为以下几种:算术函数(用来进行数值计算的函数)字符串函数(用来进行字符串操作的函数)日期函数(用来进行日期操作的函数)转换函数(用来转换数据类型和值的函数)聚合函数(用来进行数据聚合的函数)算术函数+,-,×,/ABS——绝对值MOD——求余MOD(被除数,除数)【SQL ...

2019-03-06 14:30:00 165

原创 MICK-SQL基础教程(第二版)第五章 复杂查询

第五章 复杂查询从SQL的角度来看,视图和表是相同的,两者的区别在于表中保存的是实际的数据,而视图中保存的是SELECT语句(视图本身并不存储数据)。使用视图,可以轻松完成跨多表查询数据等复杂操作。可以将常用的SELECT语句做成视图来使用。建视图需要使用CREATE VIEW语句。视图包含“不能使用ORDER BY”和“可对其进行有限制的更新...

2019-03-06 11:39:00 222

原创 MICK-SQL基础教程(第二版)第四章 数据更新

第四章 数据更新数据的插入(INSERT)INSERT INTO <表名> (列1, 列2, 列3, ……) VALUES (值1, 值2, 值3, ……);表名后面的列清单和 VALUES 子句中的值清单的列数必须保持一致。如下所示,列数不一致时会出错,无法插入数据。此外,原则上,执行一次INSERT 语句会插入一行数据。因此, ...

2019-03-06 10:55:00 262

原创 MICK-SQL基础教程(第二版)第三章 聚合与排序

第三章 聚合与排序对表进行聚合查询聚合函数所谓聚合,就是将多行汇总为一行。实际上,所有的聚合函数都是这样,输入多行输出一行。5个常用函数:函数用途COUNT计算表中的记录数(行数)SUM计算表中数值列中数据的合计值AVG计算表中数值列中数据的平均值MAX求出表中任意列中数据的最大值MIN求出表中任...

2019-03-04 14:07:00 179

原创 MICK-SQL基础教程(第二版)第二章 查询基础

第二章 查询基础SELECT语句基础列的查询SELECT <列名>,……  FROM <表名>;查询出表中所有的列SELECT * FROM <表名>;为列设定别名SELECT <列名> AS <新列名> FROM <表名>;注: 别名可以使用中文,使用中...

2019-03-04 11:53:00 183

原创 MICK-SQL基础教程(第二版)第一章

本书代码下载第一章DBMS的种类层次数据库(Hierarchical Database,HDB)把数据通过层次结构(树形结构)的方式表现出来关系数据库(Relational Database,RDB)采用由行和列组成的二维表来管理数据,它还使用专门的 SQL(Structured Query Language,结构化查询语言)对数据进行操作...

2019-03-04 11:11:00 1015

原创 《机器学习实战》第六章 支持向量机

支持向量机优点: 泛化错误率低,计算开销不大,结果易解释。缺点: 对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型: 数值型和标称型数据。一般流程:⑴收集数据:可以使用任意方法。(2)准备数据:需要数值型数据。(3)分析数据:有助于可视化分隔超平面。(4)训练算法:SVM的大部分时间都源自训练,该过程主要...

2018-12-22 15:53:00 330

原创 PAT A 1148 1149 1150 1151

1148 枚举题目大意: 假设有2个狼人,至少有一个,但是不是全部 在说谎 ,,那岂不是只有1个在说谎。至少有2人说谎,也就是说村民也有可能说谎 ,且至少有一个村民在说谎 。#include<stdio.h>#include<vector>using namespace std;typedef struct node{ bool flag; int id;...

2018-12-20 11:09:38 92

原创 PAT A 1144 1145 1146 1147

1144一开始用set超时了,改map又好了。set 和map 内部结构都采用红黑树的平衡二叉树,而且查找的时候都采用的是二分查找,效率为O(log n),这里很说不通。#include<stdio.h>#include<map>using namespace std;int main(){ int n; scanf("%d",&n); bool...

2018-12-19 14:53:32 134

原创 PAT A 1136 1137 1138 1139

1136Palindrome 回文standard notation 标准符号iteration 迭代#include<string>#include<iostream>#include<algorithm>using namespace std;string plus0(string a, string b){ int c = 0; st...

2018-12-19 14:53:06 138 1

原创 PAT A 1128 1129 1130 1131

11288皇后问题:任意两个皇后不能在同一个竖线、横线、斜线上判断是否是N皇后成立#include<stdio.h>#include<math.h>int main(){ int k; scanf("%d", &k); for(int i=0;i<k;i++){ int n; scanf("%d", &n); int a[1...

2018-12-19 14:52:29 122

原创 PAT A 1124 1125 1126 1127

1124 STL题目大意: 给出m个人名序列,从第s个开始,每隔n人挑选出一个人(包括第s个人),若这个人已经被挑选过,那么就挑选这个人的下一个人。最后,按照输入的顺序输出挑选出的人。思路: 由于需要判断 某个人是否已经被挑选过,因此第一反应用set,因为set中不允许重复元素出现。但是set每插入一个元素,就会将元素排列。因此用vector ans来记录原序的答案。变读取边处理,不需要存储...

2018-12-19 14:42:46 173 2

原创 PAT A 1108 1109 1110 1111

这些题都需要仔细读题,很多错误都是因为题意不清导致的。1108 字符串题目大意:real numbers:实数accurate up to:精确到2 decimal places:两位小数给N个实数 ,计算符合条件的数的平均值。符合条件的数是范围在[-1000,1000]并且精确到两位小数 的数字。思路:用sscanf, sprintf是个好方法,具体可以参考:柳婼 の blog...

2018-12-19 14:41:14 143

原创 PAT A 1104 1105 1106 1107

1104 数学题目大意: 已知一个正数序列, 求出它所有连续子序列元素之和。思路: 经分析,第i个数,出现i*(n-i+1)次 。安排!#include<iomanip>#include<iostream>using namespace std;int main(){ int n; cin>>n; double sum = 0; for...

2018-12-19 14:40:48 220

原创 PAT A 1112 1113 1114 1115

1112 字符串题目大意: 坏的键盘可能会连续打出K个字母。给你一个字符串(由a-z, 0-9 和 ‘_’ 组成,不超过1000个字符), 指出可能坏了的键,以及原始的字符串。思路: 两次遍历字符串。第一次遍历,统计每次每个字符连续出现的次数,用map<char , vector >存储。然后遍历这个map,若发现某个字符有一次连续出现的次数不是k, 则是没错的字符。第二次遍...

2018-12-19 14:38:22 174

原创 PAT A 1116 1117 1118 1119

1116 判断素数 STL题目大意: 冠军会得到 “Mystery Award” ,排名为素数的人得到 the Minions 。其他人得到 chocolates。给你比赛排名 以及 参赛者的id,请你找出大家都的什么奖 。#include<iostream>#include<vector>#include<map>#include<s...

2018-12-19 14:37:49 137

原创 PAT A 1042 1043 1044 1045

1042 模拟permutation 排列题目大意: 洗牌 。54张牌的初始序列为[1,…54]。给出每次改变的位置,即将第i个位置的牌挪到第a[i]个位置上。 循环往复。 输出最终的序列。#include<iostream>#include<vector>using namespace std;char s[5] = {'S','H', 'C', 'D'...

2018-12-19 14:37:20 232

原创 PAT A 1065 1066 1067 1068

1065permutation 排列题目大意: 给三个数A,B,C,范围在[-2^63, 2^63],判断是否a+b>c ;思路: 借这题来复习各个数据类型的范围。数据类型用10表示用2表示unsigned int0,4×1090, 4×10^{9}0,4×1090,232−10, 2^{32}-10,232−1int−2×109,2×109-2...

2018-12-19 14:34:17 123

原创 PAT A 1108 1109 1110 1111

这些题都需要仔细读题,很多错误都是因为题意不清导致的。1108 字符串题目大意:real numbers:实数accurate up to:精确到2 decimal places:两位小数给N个实数 ,计算符合条件的数的平均值。符合条件的数是范围在[-1000,1000]并且精确到两位小数 的数字。思路:用sscanf, sprintf是个好方法,具体可以参考:柳婼 の blo...

2018-12-04 22:16:00 146

原创 PAT A 1120 1121 1122 1123

1120 STL题目大意: 若两个数的数位上的数字加起来相等,则为朋友数。 例如:1+2+3 = 5+1 = 6,因此123和51是朋友数。给你一些数字,计算不同朋友数的值。思路: 只需要计算不同朋友数的值,因此每次先计算一下值,然后插入set就好啦。#include<iostream>#include<set>using namespace std;//...

2018-12-01 17:18:00 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除