数据分析
Saropetry
这个作者很懒,什么都没留下…
展开
-
数据质量问题处理SOP流程
数据质量问题排查与开发上线流程相反,采用“反向排查”方法。原创 2023-09-07 13:30:56 · 164 阅读 · 0 评论 -
Mysql-数据库
-- 查看可用数据库show DATABASES;-- 使用某个数据库use mysql;-- 查看该数据库所有表show tables;-- 查看数据表结构desc user;-- 查看表数据select user,host from user;原创 2020-10-30 17:28:41 · 118 阅读 · 0 评论 -
【深度学习】外置显卡选购及搭建环境
卷首语:由于软硬件发展迅速,本文相关信息预计有效期到2019年上半年。为什么需要显卡?显然这是一个不言自明的问题,看看用CPU训练时长的绝望。DL是个烧钱的行当。为什么是外置显卡?可以这样:也可以这样:土豪可以出门左转了。对于已有笔记本,不想再添置一个机箱的人,外置显卡是性价比最高的选择。已经有人算好经济帐:最终我选择:那款外置显卡扩展坞?我的选择Mantiz。此处应有广告费。更多关于此款外置显卡的信息可点击这里查看。...转载 2020-09-23 09:00:41 · 3409 阅读 · 0 评论 -
机器学习、深度学习资料汇总
深度学习入门Fast.ai 2.0上线!自带中文字幕,所有笔记、资源全部免费!:https://mp.weixin.qq.com/s/W2iau9VEEocl20XlBP1Keg课程介绍https://www.fast.ai/2020/08/21/fastai2-launch/教学视频https://course19.fast.ai/index.html亚马逊链接https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1原创 2020-09-07 16:05:06 · 169 阅读 · 0 评论 -
解读正则化 LASSO回归 岭回归
在机器学习的学习过程中,我们会经常听到正则化这个词,在开始入门学习的时候还经常与标准化混淆。到底什么是正则化呢?本篇我们将由浅入深详细解读什么是正则化,以及LASSO回归和岭回归的介绍。在正式开始之前,我们先了解几个相关基本概念。▍什么是过拟合?对于一组给定的数据,我们需要通过机器学习算法去拟合得到一个模型(对应图中曲线)。根据我们对拟合的控制和调整,这个模型可以有无数多种(一条直线,或各种形状的曲线等)。这么多种当中,哪一种是我们想要的最优结果呢?哪一种最好呢?我们评判模型好坏的标准是转载 2020-08-28 11:18:38 · 4859 阅读 · 1 评论 -
ggplot2(三)|coord 系列函数坐标轴转换
coord_ 系列函数可以改变xy轴的位置,默认使用 coord_cartesian(),我们可以改变成如下几种coord_cartesian 默认情况,指定参数则控制图形特定区域放大显示coord_fixed 图形伸缩变换coord_flip 横纵坐标位置转换coord_polar 弯曲横纵坐标(画饼图可以用)coord_map 将地图变成球状展示(这个我们以后讲到地图再专门说)coord_trans 转化数据coord系列函数只影响图形展示,不影响内部数据的值。即使用原数据作转载 2020-08-18 15:26:15 · 5772 阅读 · 0 评论 -
R语言客户端RStudio快捷键大全
Console Description Windows & Linux Mac 将光标定位到控制台 Ctrl+2 Ctrl+2 清空控制台 Ctrl+L Command+L 将光标定位到行首 Home Command+Left ...转载 2020-08-14 09:47:55 · 1600 阅读 · 0 评论 -
R语言安装使用
1、R包的安装与使用:http://www.360doc.com/content/18/1012/08/53349168_794029077.shtml2、怎样找到合适的R包:http://www.360doc.com/content/18/1012/08/53349168_794029175.shtml举例:查找广义线性模型GAM> library('sos')> findFn('gam')3、R语言数据的导入、导出http://www.360doc.com/con原创 2020-08-14 09:45:33 · 358 阅读 · 0 评论 -
python数据可视化与Web前端应用结合包:pyecharts
什么是pyecharts? pyecharts 是一个用于生成 Echarts 图表的类库。 echarts是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。 使用 pyecharts可以生成独立的网页,也可以在 flask , Django中集成使用。pyecharts包含的图表 Bar(柱状图/条形图) Bar3D(3D 柱状...转载 2020-08-11 11:16:16 · 4618 阅读 · 0 评论 -
numpy 数组shape()
import numpy as np# t1 一维数组t1 = np.arange(12)print(t1,t1.shape)# 查看数组的形状print(t1.shape)# t1 二维数组t2 = np.array([[1,2,3],[4,5,6]])print(t2,t2.shape)# t3 三维数组t3 = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])print(t3,t3.shape)# 结果[ 0 .原创 2020-07-27 17:22:28 · 1064 阅读 · 0 评论 -
35-36Python 学习笔记 —— OS模块常用接口
文件系统模块:OS目录 的属性和方法getcmd() : 获取当前工作目录chdir() : 改变当前工作目录chroot() : 设定当前进程的根目录listdir() : 列出指定目录下的所有文件名mkdir() : 创建指定目录makedirs() : 创建多级目录rmdir() : 移除目录removedirs() : 删除多级目录文件 的属性和方法mkfifo() : 创建命名管道,先进先出管道mknod() : 创建设备文件remove() :原创 2020-07-19 21:52:21 · 183 阅读 · 0 评论 -
接上期
11、求每门课程的学生人数及平均分,输出课程编号、对应学生人数、平均分SELECT course_id, count( DISTINCT student_id ) AS student_count, avg( score ) AS avg_scoreFROM scoreGROUP BY course_id12、求每门课程的学生人数及平均分,输出课程名称、对应学生人数、平均分方法一SELECT co.NAME, co.cours...原创 2020-06-10 17:53:32 · 177 阅读 · 0 评论 -
Mysql、Hive语法对比
Mysql——————学生表——----CREATE table student(student_id varchar(4) ---学生编号,name varchar(20) ---学生姓名,birthday varchar(10) ---学生生日,sex varchar(2) ---学生性别);CREATE TABLE `student` ( `student_id` varchar(4) COLLATE utf8mb4_unicode_ci DEFAULT...原创 2020-06-09 16:51:26 · 1050 阅读 · 0 评论 -
数据库中Schema(模式)概念的理解
在学习SQL的过程中,会遇到一个让你迷糊的Schema的概念。实际上,schema就是数据库对象的集合,这个集合包含了各种对象如:表、视图、存储过程、索引等。为了区分不同的集合,就需要给不同的集合起不同的名字,默认情况下一个用户对应一个集合,用户的schema名等于用户名,并作为该用户缺省schema。所以schema集合看上去像用户名。 如果把database看作是一个仓库,仓库很多房间(schema),一个schema代表一个房间,table可以看作是每个房间中的储物柜,user是每个s...转载 2020-06-08 14:13:45 · 225 阅读 · 0 评论 -
group by 分组查询、limit分页查询
group by 分组查询1、单独使用(毫无意义),类似于去重2、与group_concat()函数一起使用按固定字段,把字符用‘,’串联起来select gradeName,group_concat(stuName) from t_studentgroup bygradeName3、与聚合函数一起使用4、与having一起使用(限制输出的结果,即将查询结果筛选条件过滤)5、与with rollup一起使用(最后加入一个总和行)(1)对于int 类型的聚合...原创 2020-06-07 21:00:24 · 1126 阅读 · 0 评论 -
写SQL语句的小技巧
一、SQL总结写法 SQL的写法无非就是几种,关联查询,子查询,分组函数,各种函数的使用 1.首先根据要做的需求,先分析一下,需要用到哪些查询,例如要用到关联查询,就先把用到的表列出来,比如a,b,c三个表就先写出来,select * from a,b,c 前面的内容可以先放着不用谢,然后找三张表的之间的关联关系,这里要看的连接方式是自然连接,还是左连接,右连接等 2.举例: select * from a,b,c where a.id = b.aid and b.id =..原创 2020-06-05 13:51:04 · 1179 阅读 · 0 评论 -
MySQL练习
昨天闲逛的时候,碰到这么一个地方:免费的编程中文书籍索引由于没有联系到作者,于是只在这里放上一个链接,该贡献里面涉及到了很多优秀的学习编程的资源,也是一样希望可以帮助到大家。既然要学习数据库,就一定要明白什么事数据库(以下来自百度百科解释) ,通俗的来说,数据库就是用来存储信息的。数据库,简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、截取、更新、删除等操作。数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应...原创 2020-06-05 10:47:48 · 239 阅读 · 0 评论 -
学习 SQL 语言大纲
https://www.zhihu.com/question/19552975首先,sql是所有数据库查询的语言,sql由于本身结构化的特点,非常容易入手。针对不同的数据库,如hivesql、mysql、sqlserver、oracle等,sql语法会有所不同,但是总体上大同小异,只是细微处的差别。如果你是数据库小白,可以先补一下数据库知识;如果你有数据库基础的,只需要找些sql查询的习题来做一下,就会很快的得到提高;接着你想提高sql水平,进阶,就要学习一些比较高级的用法和技巧。.转载 2020-06-05 10:17:55 · 315 阅读 · 0 评论 -
Mysql中时间、字符串、时间戳之间转换关系
1、时间→字符串date_format(日期, 格式字符串str) ,str为转换后的指定字符串格式:select date_format(NOW(),'%Y-%m-%d %H:%i:%s')select date_format(NOW(),'%Y%m%d %H:%i:%s')2、字符串→时间mysql的数据进行分析时,经常会遇到将业务意义为时间类型的变量定义为字符串的情况。如果我们需要按照时间维度进行分析的话,首先先要将字符串转换为时间类型。str_to_date(字符串str..原创 2020-06-03 10:59:31 · 339 阅读 · 0 评论 -
sql server分组排序并取出每组中的第一条数据
使用SQL Server数据库在【分组排序并取出每组中的第一条数据】的场景下,很容易想到的是使用GROUP BY分组子句配合聚合函数。举个简单的例子,有一个YANGGBS表,表中有NAME和AGE两个字段,要求统计出每个NAME的最大AGE。SELECT AA.*FROM YANGGBS AA INNER JOIN ( SELECT NAME, MAX(AGE) FROM YANGGBS GROUP BY NAME ) BB.原创 2020-06-02 17:55:03 · 5696 阅读 · 0 评论 -
mysql判断某个字符串是否包含某个字符串的3种方法查询结果对比
总结下在MySQL里判断某个字符串是否包含某个字符串的3种方法。先举个简单的场景,比如要查询user表中爱好中有yanggb的记录。方法1:使用通配符%。通配符也就是模糊匹配,可以分为前导模糊查询、后导模糊查询和全导匹配查询,适用于查询某个字符串中是否包含另一个模糊查询的场景。select * from user where hobby like "%yanggb%";使用的场景局限于找到hobby中存在yanggb的记录(hobby为多个以逗号隔开的值),反之不行。方法2:使用M原创 2020-06-02 14:53:27 · 39303 阅读 · 0 评论 -
sql优化之大数据量分页查询(mysql)
当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时就需要使用分页查询。对于数据库分页查询,也有很多种方法和优化的点。谈优化前的准备工作为了对下面列举的一些优化进行测试,需要使用已有的一张表作为实际例子。表名:order_history。描述:某个业务的订单历史表。主要字段:unsigned int id,tinyint(4) int type。字段情况:该表一共37个字段,不包含text等大型数据,最大为varchar(500转载 2020-06-02 14:30:09 · 1010 阅读 · 0 评论 -
tableau怎么连接hadoop
tableau连接服务器Cloudera Hadoop,直接打开tableau连接肯定不行啦工具/原料 Tableau2018.3.1(64位) VMware Workstation Ubuntu hadoop2.5.0 hive0.13.1 方法/步骤 1 cd到你的hadoop安装目录下,分别运行以下命令: sbin/ha...原创 2020-01-11 09:45:30 · 1451 阅读 · 0 评论