自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 统计知识随时记

一、概率中的PDF/PMF/CDF离散随机变量:概率质量函数(Probability Mass Function,PMF)PMF即离散随机变量在各特定取值上的概率连续随机变量:概率密度函数(Probability Density Function,PDF)PDF:连续随机变量的概率密度函数是描述这个随机变量的输出值,在某个特定取值点附近可能性的函数。累积分布函数(Cumulative ...

2018-12-26 20:28:40 275

原创 Python编程随时记

一、feature_importances_一般本质是决策树的学习器会有该属性,即特征的重要程度,常用于查看某个模型中用到数据特征的重要性排序。RandomForest中的feature_importance...

2018-12-13 22:36:15 379

原创 Python-Pandas之DataFrame用法总结

DataFrame:类似于表的数据结构本文对Pandas包中二维(多维)数据结构DataFrame的特点和用法进行了总结归纳。可以参考:pandas用法速览3.1 增加数据3.1.1 创建数据框Object Creationimport pandas as pdimport numpy as np#通过Numpy array来创建数据框dates=pd.date_range('...

2018-10-14 20:40:00 57020 1

原创 Python-Pandas中Series用法总结

Series:带标签的数组本文对Pandas包中的一维数据类型Series特点及用法进行了总结归纳。2.1 如何创建Sereis#导入Pandas包import pandas as pd#创建Series#1.1.1 通过列表ListlistSer=pd.Series([10,20,30,40])print(listSer)#1.1.2 通过字典dictdictSer=...

2018-10-14 20:12:06 27628 8

原创 Python-Numpy中Array用法总结

Numpy中array(数组)Numpy主要对象是齐次多维数组,由正整数元组索引,Numpy中维度称为轴(axis),数组的维数称为秩(rank)。可以参考:Numpy快速入门1.1 创建数组常规方法创建数组import numpy as np#一维数组a=np.array([2,3,4])b=np.array([2.,3.,4.])#二维数组c=np.array([[1.,...

2018-10-14 19:45:12 63220 5

原创 SQL优化技巧

本文以Mysql数据库为例,总结数据库优化方法。

2022-01-09 17:27:32 1617

原创 机器学习-定序回归及python实现

参考链接:深入浅出机器学习算法:定序回归机器学习:保序回归(IsotonicRegression):一种可以使资源利用率最大化的算法scikit-learn一般实例之一:保序回归(Isotonic Regression)

2021-12-23 21:44:01 2717

原创 大数据-Hive开窗函数

Hive开窗函数结构:xx() over(partition by xx order by xx)Hive开窗函数,大致有以下两类:1. 排序开窗函数row_number():组内排名后获取行号rank():组内排名(连续)dense_rank():组内排名(跳跃)first_value()last_value()lag(col, n, default):用于统计窗口内往上取第n个值lead(col, n, default):用于统计窗口内往下取第n个值cume_dist(col):计

2021-12-20 22:42:06 3391

原创 数据清洗常用代码

数据清洗过程中,经常需要对缺失值和异常值进行查看和处理,常用代码总结如下:一、缺失值处理1.1 缺失值识别# 查看数据缺失情况# 输入数据集# 输出各字段缺失值的数量以及占比,并降序展示def missing(data): missingSum=data.isnull().sum() #总缺失值 missingSumPrt=100 * data.isnull().sum()/len(data) #缺失值占比 MissingTb1=pd.concat([missingSu

2021-12-17 18:21:52 2998

原创 Python中pip和conda功能应用

用pip功能进行模块的安装、更新#显示模块pip list#显示过期模块pip list --outdated#安装模块pip install xxx#升级模块pip install --upgrade xxx#删除模块pip uninstall xxx#搜索包pip search xxx#查看指定包的(详细)信息pip show (-f) xxx用conda功能进行环境及模块的管理Conda 创建后的环境种自带 pip,所以安装包也可以直接通过 pip 进行安装。#环境管

2020-11-19 21:17:10 928

原创 Python-Pandas之索引index相关函数

本文介绍对索引进行 重新排序 以及 更换索引 时的用法,需要注意的是索引对象是无法进行修改的。重新索引 .reindex()reindex函数参数类型使用说明index用于索引的新序列method填充缺失值方法fill_value缺失值替代值limit最大填充通过与array以及series对比进行学习,会更清楚DataFrame的用法和特点。更换索引 .set_index()...

2020-09-06 22:42:42 3352

原创 大数据-数据仓库-数据倾斜

什么是数据倾斜?https://www.jianshu.com/p/42be5ca8b11d产生数据倾斜的原因?https://www.jianshu.com/p/ab08de658adchttps://www.jianshu.com/p/18b7c3979879https://www.jianshu.com/p/bde6525634da如何避免数据倾斜?...

2020-03-05 21:29:18 1658

原创 大数据-数据仓库-Hive总结及性能优化

Hive是构建在Hadoop之上的数据仓库软件。它提供类似sql的查询语句HiveQL对数据进行分析处理,Hive将HiveQL语句转换成一系列MapReduce作业并执行。

2020-03-02 23:11:40 2837

原创 大数据-Hadoop应用

一、初识Hadoop以一个小故事解释什么是Hadoop:小明接到一个任务:计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单词,每行单词与单词之间均以空格键隔开。对于处理这种100M量级数据的计算任务,小明觉得很轻松。他首先把这个100M的文件拷贝到自己的电脑上,然后写了个计算程序在他的计算机上执行并顺利输出了结果。后来,小明接到了另外一个任务,计算一个1T(10...

2020-02-19 21:11:15 1576

原创 数据治理的方法论

数据治理的方法论引言:脏数据的种类及处理方法BI对数据的要求数据治理的原则数据治理的落地引言:数据分析师的角色犹如一位大厨,原料有问题,大厨肯定烹饪不出色香味俱佳的大菜,数据有问题,数据分析师得出的结论自然也就不可靠。先从脏数据的种类及处理方法谈起。脏数据的种类及处理方法首先,我们来了解一下脏数据的种类,明白我们可能会面对哪些问题。1 数据缺失:缺一些记录,或者一条记录里缺一些值(空...

2020-02-08 22:01:04 2591 1

原创 Python-查看已安装模块命令

查看已安装模块列表pip list查看具体模块、内置函数dir(modules) # 获得当前模块的属性列表dir([modules]) # 查看列表的方法查看具体模块等的用法查看python所有的modules:help(‘modules’)单看python所有的modules中包含指定字符串的modules: help(‘modules yourstr’)查看pytho...

2019-11-21 23:22:28 2651

原创 Python-Oracle数据库操作

在配置python环境,并安装所需包后,运行下列代码~import pandas as pd from sqlalchemy import create_engine import cx_Oracle#进行oracle服务器设置,用户名;密码;HOST数据库IP地址;PORT端口号;SERVICE_NAMEdb=cx_Oracle.connect('userid','passwor...

2019-06-30 22:11:22 1251

原创 读书笔记-《Don't make me think》第三版

第一章 别让我思考你的目标应该是让每一个页面都不言而喻,不需要用户思考就能明白。如果不能做到让一个页面不言而喻,那至少应让它自我解释。第二章 我们实际上是如何使用Web的网络使用情况的三个事实:我们不是阅读,而是扫描我们不作最佳选择,而是满意即可我们不追根究底,而是勉强应付第三章 广告牌设计101法则(为扫描设计,不为阅读设计)尽量利用习惯用法建立有效的视觉层次把页面...

2019-05-19 22:37:15 2731

原创 SQL-Exists与IN用法比较

一、EXISTS用法说明EXITS谓词代表 存在量词,带有EXISTS谓词的子查询不返回任何数据,只产生逻辑真值TRUE或逻辑假值FALSE。只要EXITS引导的子句有结果集返回,该条件即成立,EXITS不在乎返回的是什么内容,只在乎是否有结果集返回。如:select * from customerwhere not exists( select 0 from customer_goo...

2019-04-28 22:56:56 3343

原创 Python-配对函数zip()

1、zip将列表、元组或其他序列的元素进行配对,新建成一个元组构成的列表,它生成列表长度由最短的序列决定:#zipseq1=['foo','bar','baz']seq2=['one','two','three']zipped=zip(seq1,seq2)list(zipped)>>>>[('foo', 'one'), ('bar', 'two'), ('ba...

2019-03-24 21:38:21 2387

原创 读书笔记-《启示录--打造用户喜爱的产品》

《启示录–打造用户喜爱的产品》Inspired – How To Create Products Customers Love第一部分:人员第一章:关键角色及其职责产品经理的两项主要职责:评估产品机会(product opportunity)&定义要开发的产品。用户体验设计师(交互设计师)项目管理人员:制定计划并跟踪进度。开发团队运维团队产品营销人员:负责对外发布信息、宣...

2019-02-25 22:54:15 2659

原创 读书笔记-《SQL 必知必会》

《SQL 必知必会》是学习数据库的入门级经典书籍,里面知识点虽然都比较基础,不过讲解的清晰简介,也比较全面。通过全面的学习SQL,可以在工作面临问题时想到更高效的办法。接下来主要记录经典章节中知识点的用法(主要针对Oracle语法):第6课:用通配符进行过滤第7课:创建计算字段第8课:使用函数处理数据第9课:汇总数据第10课:分组数据第11课:使用子查询第12课:联结表第13课:...

2019-02-13 23:10:20 2273

原创 数据运营-常见问题 留存率/连续登陆等(SQL & Hive)

一、问题1:留存率计算字段及表说明:表名:user_log字段名:log_day:登录日期device_id:用户设备idapp_id:用户app的id,其中device_id和app_id确定唯一的用户1.1计算某日留存率(次日、3日、7日、30日)--计算次日、3日、7日、30日留存率select log_day,count(user_id_d1)/count(user_id...

2019-02-02 21:48:49 27101 10

原创 Python-with open() as f的用法

常见的读写操作:with open(r'filename.txt') as f: data_user=pd.read_csv(f) #文件的读操作with open('data.txt', 'w') as f: f.write('hello world') #文件的写操作 相关参数:r: 以只读方式打开文件。文件的指针将会放在文件的开头。这是**默认模式**。r...

2019-02-01 21:48:15 167057 6

原创 数据运营-计算留存率和转化率(漏斗分析&Python)

一、案例数据在数据运营中,留存率分析和转化率(漏斗)分析是经常用到的,本文结合具体案例总结了如何利用python求n日留存率以及各环节间转化率。[指标释义](https://zhuanlan.zhihu.com/p/55823651)案例数据集介绍:本文是利用淘宝app的运营数据进行分析的,数据集中包含以下字段(部分):user_id:用户idtime:用户行为发生时间behavi...

2019-01-31 22:17:18 12031 2

原创 机器学习-各类学习器评价指标

一、各类学习器评价指标机器学习是借助算法模型来解析数据,并从中学习,然后对真实世界中事件作出决策或预测的方法。根据是否提供数据的分类结果(数据的标签),可将机器学习方法分为两大类:监督学习(如分类和回归方法),无监督学习(如聚类方法)。在利用机器学习方法对问题作出决策和预测后,我们需要对结果进行评价,此时我们应选择合适的评价指标,不同的学习器相应的指标体系也有差异:分类模型:准确率、ROC-...

2019-01-20 22:40:27 2068

原创 机器学习-描述性统计(Python)

描述性统计指标含义numpy/scipy包中求响应统计指标的方法:利用Python进行描述统计分析时,用到numpy库/scipy库1. 中心位置:均值、中位数(分位数)、众数均值(mean(data)):描述了样本观测数据取值相对集中程度众数(mode(data)):样本中出现频率最高的数中位数(median(data)):描述了样本观测数据的中间位置分位数:将一...

2019-01-09 23:28:25 15142 1

原创 Python-sklearn包中拆分数据集进行交叉验证的方法对比

一、对比训练模型前,不同拆分数据集方法sklearn.model_selection.KFold()交叉采样,将实验数据划分得到若干个互斥子集。sklearn.model_selection.StratifiedKFold()根据数据标签各类型占比进行交叉采样,将实验数据划分得到若干个互斥子集。sklearn.cross_validation.train_test_split()按特...

2018-12-28 21:10:13 3427

原创 Python-matplotlib画图时中文显示为小方框的解决方法

Mac版本:参考:https://www.cnblogs.com/Ootori/p/7716687.html其中加代码时要多一行:import matplotlib as mplWindows版本:参考:https://blog.csdn.net/q1148013214/article/details/81172446...

2018-12-23 21:19:02 4963

原创 Python-Seaborn绘制图形

一、Seaborn特点Seaborn是在matplotlib基础上进行更高级的API封装,常在绘制统计图形时使用。二、加载数据构建Seaborn图像并设置主题格式可以使用sns.load_dataset()函数来加载内置的Seaborn数据集,利用sns.set()来设置主题格式。Seaborn有五个预设的主题:darkgrid,whitegrid,dark,white,ticks,默认...

2018-12-04 22:19:39 2371

原创 Python-Matplotlib绘制图形

一、Why’s MatplotlibMatplotlib:风格类似于Matlab,是基于Python的绘图库,属于Python中最基础的画图工具。他提供了一整套与matlab相似的命令API,十分适合交互式绘图。除了Matplotlib外,还有几个较常用的绘图库:SeabornSeaborn是基于Matplotlib的高级可视化效果库,偏向于统计作图,可用于数据挖掘和机器学习中的变量特...

2018-12-02 23:47:49 3026

原创 Python-sklearn包中自动调参方法-网格搜索GridSearchCV

sklearn包中自动调参方法-网格搜索GridSearchCV一、GridSearchCV主要作用及函数参数GridSearchCV:作用是在指定的范围内可以自动调参,只需将参数输入即可得到最优化的结果和参数。相对于人工调参更省时省力,相对于for循环方法更简洁灵活,不易出错。from sklearn.model_selection import GridSearchCVclass sk...

2018-11-25 16:30:11 4980

原创 Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别

sklearn包中StratifiedKFold和KFold采样的区别一、StratifiedKFold及KFold主要区别及函数参数KFold交叉采样:将训练/测试数据集划分n_splits个互斥子集,每次只用其中一个子集当做测试集,剩下的(n_splits-1)作为训练集,进行n_splits次实验并得到n_splits个结果。注:对于不能均等分的数据集,前n_samples%n_spl...

2018-11-25 00:25:09 26463 6

原创 Python-sklearn包中cross_val_score进行交叉验证

sklearn包中cross_val_score进行交叉验证一、cross_val_score函数功能及参数释义验证模型在某个训练集上的稳定性,输出cv=k个预测精度。sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1,verbose=0, fit_p...

2018-11-24 00:35:46 5954

原创 机器学习-集成学习(ensemble learning)

集成学习ensemble learning:本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。可以用两句话形容:1、“三个臭皮匠顶个诸葛亮”:一堆弱分类器的组合可以成为一个强分类器;2、“知错能改,善莫大焉”:不断在错误中学习,迭代来降低放错概率。一、集成学习概述训练若干个个体学习器(弱学习器)弱学习器可以是同质或异质的:同质:boosting系列算...

2018-11-22 22:13:19 3721

原创 Python-Groupby函数应用

Pandas分组和聚合运算–Groupby函数应用一、groupby函数功能根据一个或多个键拆分pandas对象,计算分组摘要统计,如计数、平均值、标准差或用户自定义函数等。二、groupby函数原理可将groupby函数分组聚合的过程分为两步:1、分组split:按照指定键值或分组变量对数据分组2、聚合combine:应用python自带函数或自定义函数进行聚合计算eg.1.分组...

2018-11-17 20:32:49 17694

原创 机器学习-逻辑回归分析(Python)

前言回归和分类方法是机器学习中经常用到的方法,本文首先介绍这两种方法的区别和联系,然后对分类方法中的逻辑回归进行较详细的说明(包括其基本原理及评估指标),最后结合案例介绍如何利用Python进行逻辑回归分析。一、分类与回归1.1什么是分类和回归区分回归问题和分类问题:回归问题:输入变量和输出变量均为连续变量的问题;分类问题:输出变量为有限个离散变量的问题。因此分类及回归分别...

2018-11-12 00:16:09 36086 5

原创 Python-辨析type/dtype/astype用法

Python中与数据类型相关函数及属性有如下三个:type/dtype/astype。名称描述type()返回参数的数据类型dtype返回数组中元素的数据类型astype()对数据类型进行转换type()用于获取数据类型#type用于获取数据类型import numpy as npa=[1,2,3]print(type(a))#>&...

2018-11-07 20:43:21 11581

原创 机器学习-简单线性回归分析(Python)

前言机器学习常用来解决相关分析和回归分析的问题,有时候大家会混淆两者之间的差异,这里通过对比分析来说明两者的区别和联系,最后会以调用sklearn包中LinearRegression方法进行简单线性回归分析为例,说明如何使用python进行数据分析。一、相关分析和回归分析1.1 两者的定义相关分析(Correlation analysis):研究两个或两个以上处于同等地位的随机变量间的...

2018-11-04 22:37:53 3021 3

原创 SQL-SQLZOO学习笔记

第二关:SELECT nameslike/concat/locate(a,b):a是否在b中/

2018-10-28 22:50:34 1880

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除