ckSpark-CSDN博客

原创统计知识随时记

一、概率中的PDF/PMF/CDF离散随机变量：概率质量函数（Probability Mass Function,PMF）PMF即离散随机变量在各特定取值上的概率连续随机变量：概率密度函数（Probability Density Function,PDF）PDF：连续随机变量的概率密度函数是描述这个随机变量的输出值，在某个特定取值点附近可能性的函数。累积分布函数（Cumulative ...

2018-12-26 20:28:40 341

原创 Python编程随时记

一、feature_importances_一般本质是决策树的学习器会有该属性，即特征的重要程度，常用于查看某个模型中用到数据特征的重要性排序。RandomForest中的feature_importance...

2018-12-13 22:36:15 490

原创 Python-Pandas之DataFrame用法总结

DataFrame：类似于表的数据结构本文对Pandas包中二维（多维）数据结构DataFrame的特点和用法进行了总结归纳。可以参考：pandas用法速览3.1 增加数据3.1.1 创建数据框Object Creationimport pandas as pdimport numpy as np#通过Numpy array来创建数据框dates=pd.date_range('...

2018-10-14 20:40:00 57780 1

原创 Python-Pandas中Series用法总结

Series：带标签的数组本文对Pandas包中的一维数据类型Series特点及用法进行了总结归纳。2.1 如何创建Sereis#导入Pandas包import pandas as pd#创建Series#1.1.1 通过列表ListlistSer=pd.Series([10,20,30,40])print(listSer)#1.1.2 通过字典dictdictSer=...

2018-10-14 20:12:06 28524 8

原创 Python-Numpy中Array用法总结

Numpy中array（数组）Numpy主要对象是齐次多维数组，由正整数元组索引，Numpy中维度称为轴（axis），数组的维数称为秩（rank）。可以参考：Numpy快速入门1.1 创建数组常规方法创建数组import numpy as np#一维数组a=np.array([2,3,4])b=np.array([2.,3.,4.])#二维数组c=np.array([[1.,...

2018-10-14 19:45:12 67337 5

原创 SQL优化技巧

本文以Mysql数据库为例，总结数据库优化方法。

2022-01-09 17:27:32 1793

原创机器学习-定序回归及python实现

参考链接：深入浅出机器学习算法：定序回归机器学习：保序回归(IsotonicRegression)：一种可以使资源利用率最大化的算法scikit-learn一般实例之一:保序回归(Isotonic Regression)

2021-12-23 21:44:01 2946

Hive开窗函数结构：xx() over(partition by xx order by xx)Hive开窗函数，大致有以下两类：1. 排序开窗函数row_number()：组内排名后获取行号rank()：组内排名（连续）dense_rank()：组内排名（跳跃）first_value()last_value()lag(col, n, default)：用于统计窗口内往上取第n个值lead(col, n, default)：用于统计窗口内往下取第n个值cume_dist(col)：计

2021-12-20 22:42:06 3655

原创数据清洗常用代码

数据清洗过程中，经常需要对缺失值和异常值进行查看和处理，常用代码总结如下：一、缺失值处理1.1 缺失值识别# 查看数据缺失情况# 输入数据集# 输出各字段缺失值的数量以及占比，并降序展示def missing(data): missingSum=data.isnull().sum() #总缺失值 missingSumPrt=100 * data.isnull().sum()/len(data) #缺失值占比 MissingTb1=pd.concat([missingSu

2021-12-17 18:21:52 3490

原创 Python中pip和conda功能应用

用pip功能进行模块的安装、更新#显示模块pip list#显示过期模块pip list --outdated#安装模块pip install xxx#升级模块pip install --upgrade xxx#删除模块pip uninstall xxx#搜索包pip search xxx#查看指定包的（详细）信息pip show (-f) xxx用conda功能进行环境及模块的管理Conda 创建后的环境种自带 pip，所以安装包也可以直接通过 pip 进行安装。#环境管

2020-11-19 21:17:10 1017

原创 Python-Pandas之索引index相关函数

本文介绍对索引进行重新排序以及更换索引时的用法，需要注意的是索引对象是无法进行修改的。重新索引 .reindex()reindex函数参数类型使用说明index用于索引的新序列method填充缺失值方法fill_value缺失值替代值limit最大填充通过与array以及series对比进行学习，会更清楚DataFrame的用法和特点。更换索引 .set_index()...

2020-09-06 22:42:42 3544

原创大数据-数据仓库-数据倾斜

什么是数据倾斜？https://www.jianshu.com/p/42be5ca8b11d产生数据倾斜的原因？https://www.jianshu.com/p/ab08de658adchttps://www.jianshu.com/p/18b7c3979879https://www.jianshu.com/p/bde6525634da如何避免数据倾斜？...

2020-03-05 21:29:18 1878

原创大数据-数据仓库-Hive总结及性能优化

Hive是构建在Hadoop之上的数据仓库软件。它提供类似sql的查询语句HiveQL对数据进行分析处理，Hive将HiveQL语句转换成一系列MapReduce作业并执行。

2020-03-02 23:11:40 3277

原创大数据-Hadoop应用

一、初识Hadoop以一个小故事解释什么是Hadoop：小明接到一个任务：计算一个100M的文本文件中的单词的个数，这个文本文件有若干行，每行有若干个单词，每行单词与单词之间均以空格键隔开。对于处理这种100M量级数据的计算任务，小明觉得很轻松。他首先把这个100M的文件拷贝到自己的电脑上，然后写了个计算程序在他的计算机上执行并顺利输出了结果。后来，小明接到了另外一个任务，计算一个1T（10...

2020-02-19 21:11:15 1687

原创数据治理的方法论

数据治理的方法论引言：脏数据的种类及处理方法BI对数据的要求数据治理的原则数据治理的落地引言：数据分析师的角色犹如一位大厨，原料有问题，大厨肯定烹饪不出色香味俱佳的大菜，数据有问题，数据分析师得出的结论自然也就不可靠。先从脏数据的种类及处理方法谈起。脏数据的种类及处理方法首先，我们来了解一下脏数据的种类，明白我们可能会面对哪些问题。1 数据缺失：缺一些记录，或者一条记录里缺一些值（空...

2020-02-08 22:01:04 2749 1

原创 Python-查看已安装模块命令

查看已安装模块列表pip list查看具体模块、内置函数dir(modules) # 获得当前模块的属性列表dir([modules]) # 查看列表的方法查看具体模块等的用法查看python所有的modules：help(‘modules’)单看python所有的modules中包含指定字符串的modules： help(‘modules yourstr’)查看pytho...

2019-11-21 23:22:28 3191

原创 Python-Oracle数据库操作

在配置python环境，并安装所需包后，运行下列代码~import pandas as pd from sqlalchemy import create_engine import cx_Oracle#进行oracle服务器设置，用户名；密码；HOST数据库IP地址；PORT端口号；SERVICE_NAMEdb=cx_Oracle.connect('userid','passwor...

2019-06-30 22:11:22 1346

原创读书笔记-《Don't make me think》第三版

第一章别让我思考你的目标应该是让每一个页面都不言而喻，不需要用户思考就能明白。如果不能做到让一个页面不言而喻，那至少应让它自我解释。第二章我们实际上是如何使用Web的网络使用情况的三个事实：我们不是阅读，而是扫描我们不作最佳选择，而是满意即可我们不追根究底，而是勉强应付第三章广告牌设计101法则（为扫描设计，不为阅读设计）尽量利用习惯用法建立有效的视觉层次把页面...

2019-05-19 22:37:15 3023

原创 SQL-Exists与IN用法比较

一、EXISTS用法说明EXITS谓词代表存在量词，带有EXISTS谓词的子查询不返回任何数据，只产生逻辑真值TRUE或逻辑假值FALSE。只要EXITS引导的子句有结果集返回，该条件即成立，EXITS不在乎返回的是什么内容，只在乎是否有结果集返回。如：select * from customerwhere not exists( select 0 from customer_goo...

2019-04-28 22:56:56 3452

原创 Python-配对函数zip()

1、zip将列表、元组或其他序列的元素进行配对，新建成一个元组构成的列表，它生成列表长度由最短的序列决定：#zipseq1=['foo','bar','baz']seq2=['one','two','three']zipped=zip(seq1,seq2)list(zipped)>>>>[('foo', 'one'), ('bar', 'two'), ('ba...

2019-03-24 21:38:21 2541

原创读书笔记-《启示录--打造用户喜爱的产品》

《启示录–打造用户喜爱的产品》Inspired – How To Create Products Customers Love第一部分：人员第一章：关键角色及其职责产品经理的两项主要职责：评估产品机会（product opportunity）&amp;amp;amp;amp;amp;amp;定义要开发的产品。用户体验设计师（交互设计师）项目管理人员：制定计划并跟踪进度。开发团队运维团队产品营销人员：负责对外发布信息、宣...

2019-02-25 22:54:15 3186

原创读书笔记-《SQL 必知必会》

《SQL 必知必会》是学习数据库的入门级经典书籍，里面知识点虽然都比较基础，不过讲解的清晰简介，也比较全面。通过全面的学习SQL，可以在工作面临问题时想到更高效的办法。接下来主要记录经典章节中知识点的用法（主要针对Oracle语法）：第6课：用通配符进行过滤第7课：创建计算字段第8课：使用函数处理数据第9课：汇总数据第10课：分组数据第11课：使用子查询第12课：联结表第13课：...

2019-02-13 23:10:20 2464

原创数据运营-常见问题留存率/连续登陆等（SQL & Hive）

一、问题1：留存率计算字段及表说明：表名：user_log字段名：log_day:登录日期device_id:用户设备idapp_id:用户app的id，其中device_id和app_id确定唯一的用户1.1计算某日留存率（次日、3日、7日、30日）--计算次日、3日、7日、30日留存率select log_day,count(user_id_d1)/count(user_id...

2019-02-02 21:48:49 28523 10

原创 Python-with open() as f的用法

常见的读写操作：with open(r'filename.txt') as f: data_user=pd.read_csv(f) #文件的读操作with open('data.txt', 'w') as f: f.write('hello world') #文件的写操作相关参数：r: 以只读方式打开文件。文件的指针将会放在文件的开头。这是**默认模式**。r...

2019-02-01 21:48:15 171948 6

原创数据运营-计算留存率和转化率（漏斗分析&Python）

一、案例数据在数据运营中，留存率分析和转化率（漏斗）分析是经常用到的，本文结合具体案例总结了如何利用python求n日留存率以及各环节间转化率。[指标释义](https://zhuanlan.zhihu.com/p/55823651)案例数据集介绍：本文是利用淘宝app的运营数据进行分析的，数据集中包含以下字段（部分）：user_id:用户idtime:用户行为发生时间behavi...

2019-01-31 22:17:18 13053 2

原创机器学习-各类学习器评价指标

一、各类学习器评价指标机器学习是借助算法模型来解析数据，并从中学习，然后对真实世界中事件作出决策或预测的方法。根据是否提供数据的分类结果（数据的标签），可将机器学习方法分为两大类：监督学习（如分类和回归方法），无监督学习（如聚类方法）。在利用机器学习方法对问题作出决策和预测后，我们需要对结果进行评价，此时我们应选择合适的评价指标，不同的学习器相应的指标体系也有差异：分类模型：准确率、ROC-...

2019-01-20 22:40:27 2338

原创机器学习-描述性统计（Python）

描述性统计指标含义numpy/scipy包中求响应统计指标的方法：利用Python进行描述统计分析时，用到numpy库/scipy库1. 中心位置：均值、中位数（分位数）、众数均值(mean(data))：描述了样本观测数据取值相对集中程度众数(mode(data))：样本中出现频率最高的数中位数(median(data))：描述了样本观测数据的中间位置分位数：将一...

2019-01-09 23:28:25 15619 1

原创 Python-sklearn包中拆分数据集进行交叉验证的方法对比

一、对比训练模型前，不同拆分数据集方法sklearn.model_selection.KFold()交叉采样，将实验数据划分得到若干个互斥子集。sklearn.model_selection.StratifiedKFold()根据数据标签各类型占比进行交叉采样，将实验数据划分得到若干个互斥子集。sklearn.cross_validation.train_test_split()按特...

2018-12-28 21:10:13 3630

原创 Python-matplotlib画图时中文显示为小方框的解决方法

Mac版本：参考：https://www.cnblogs.com/Ootori/p/7716687.html其中加代码时要多一行：import matplotlib as mplWindows版本：参考：https://blog.csdn.net/q1148013214/article/details/81172446...

2018-12-23 21:19:02 5766

原创 Python-Seaborn绘制图形

一、Seaborn特点Seaborn是在matplotlib基础上进行更高级的API封装，常在绘制统计图形时使用。二、加载数据构建Seaborn图像并设置主题格式可以使用sns.load_dataset()函数来加载内置的Seaborn数据集，利用sns.set()来设置主题格式。Seaborn有五个预设的主题：darkgrid，whitegrid，dark，white，ticks，默认...

2018-12-04 22:19:39 2688

原创 Python-Matplotlib绘制图形

一、Why’s MatplotlibMatplotlib：风格类似于Matlab，是基于Python的绘图库，属于Python中最基础的画图工具。他提供了一整套与matlab相似的命令API，十分适合交互式绘图。除了Matplotlib外，还有几个较常用的绘图库：SeabornSeaborn是基于Matplotlib的高级可视化效果库，偏向于统计作图，可用于数据挖掘和机器学习中的变量特...

2018-12-02 23:47:49 3235

原创 Python-sklearn包中自动调参方法-网格搜索GridSearchCV

sklearn包中自动调参方法-网格搜索GridSearchCV一、GridSearchCV主要作用及函数参数GridSearchCV：作用是在指定的范围内可以自动调参，只需将参数输入即可得到最优化的结果和参数。相对于人工调参更省时省力，相对于for循环方法更简洁灵活，不易出错。from sklearn.model_selection import GridSearchCVclass sk...

2018-11-25 16:30:11 5313

原创 Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别

sklearn包中StratifiedKFold和KFold采样的区别一、StratifiedKFold及KFold主要区别及函数参数KFold交叉采样：将训练/测试数据集划分n_splits个互斥子集，每次只用其中一个子集当做测试集，剩下的（n_splits-1）作为训练集，进行n_splits次实验并得到n_splits个结果。注：对于不能均等分的数据集，前n_samples%n_spl...

2018-11-25 00:25:09 27316 6

原创 Python-sklearn包中cross_val_score进行交叉验证

sklearn包中cross_val_score进行交叉验证一、cross_val_score函数功能及参数释义验证模型在某个训练集上的稳定性，输出cv=k个预测精度。sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1,verbose=0, fit_p...

2018-11-24 00:35:46 6153

原创机器学习-集成学习(ensemble learning)

集成学习ensemble learning：本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。可以用两句话形容：1、“三个臭皮匠顶个诸葛亮”：一堆弱分类器的组合可以成为一个强分类器；2、“知错能改，善莫大焉”：不断在错误中学习，迭代来降低放错概率。一、集成学习概述训练若干个个体学习器（弱学习器）弱学习器可以是同质或异质的：同质：boosting系列算...

2018-11-22 22:13:19 4023

原创 Python-Groupby函数应用

Pandas分组和聚合运算–Groupby函数应用一、groupby函数功能根据一个或多个键拆分pandas对象，计算分组摘要统计，如计数、平均值、标准差或用户自定义函数等。二、groupby函数原理可将groupby函数分组聚合的过程分为两步：1、分组split：按照指定键值或分组变量对数据分组2、聚合combine：应用python自带函数或自定义函数进行聚合计算eg.1.分组...

2018-11-17 20:32:49 18384

原创机器学习-逻辑回归分析（Python）

前言回归和分类方法是机器学习中经常用到的方法，本文首先介绍这两种方法的区别和联系，然后对分类方法中的逻辑回归进行较详细的说明（包括其基本原理及评估指标），最后结合案例介绍如何利用Python进行逻辑回归分析。一、分类与回归1.1什么是分类和回归区分回归问题和分类问题：回归问题：输入变量和输出变量均为连续变量的问题；分类问题：输出变量为有限个离散变量的问题。因此分类及回归分别...

2018-11-12 00:16:09 36513 5

原创 Python-辨析type/dtype/astype用法

Python中与数据类型相关函数及属性有如下三个：type/dtype/astype。名称描述type()返回参数的数据类型dtype返回数组中元素的数据类型astype()对数据类型进行转换type()用于获取数据类型#type用于获取数据类型import numpy as npa=[1,2,3]print(type(a))#>&...

2018-11-07 20:43:21 12075

原创机器学习-简单线性回归分析（Python）

前言机器学习常用来解决相关分析和回归分析的问题，有时候大家会混淆两者之间的差异，这里通过对比分析来说明两者的区别和联系，最后会以调用sklearn包中LinearRegression方法进行简单线性回归分析为例，说明如何使用python进行数据分析。一、相关分析和回归分析1.1 两者的定义相关分析(Correlation analysis)：研究两个或两个以上处于同等地位的随机变量间的...

2018-11-04 22:37:53 3232 3

原创 SQL-SQLZOO学习笔记

第二关：SELECT nameslike/concat/locate(a,b)：a是否在b中/

2018-10-28 22:50:34 2220

空空如也

空空如也