anonymox-CSDN博客

原创 sklearn常用模块

常用算法及类型类型应用算法分类异常检测、图像识别等KNN、SVM等聚类图像分割、群体划分等KMeans、谱聚类等回归价格预测、趋势预测等线性回归、SVR等降维可视化PCA、NMF等加载数据集数据集名称调用方式适用算法数据规模波士顿房价load_boston()回归506*13鸢尾花load_iris()分类150*4糖尿病load_diabetes()回归442*10手写数字loa

2020-11-14 00:10:36 518

文章目录常用模块一、操作Excel读取Excel内容二、操作googlesheet写入数据读取数据常用模块模块功能xlrd读取excel文件数据xlsxwriter/xlwd写excel文件openpyxl模块安装方式pip install xlrd,xlsxwriter一、操作Excel读取Excel内容import xlrd file = xlrd.open_workbook(r'filename.xls','r')sheet = fi

2020-11-13 23:13:44 222

原创 pyspark的使用

这里用来整理pyspark的一些常用知识点。

2020-11-13 22:44:12 340

原创 Hive常用函数整理

文章目录hive内置函数日期函数一、日期获取二、日期转换日期 <-> 时间戳日期 <-> 字符串三、日期计算四、截取日期例子字符串函数hive内置函数查看系统自带函数show functions;显示自带函数的用法desc function upper;desc function extended upper;日期函数一、日期获取查看当前日期select current_date;select current_timestamp();selec

2020-11-13 21:39:43 669

原创 Python处理json

使用最多的就是json.dump()、json.dumps()、json.load()、json.loads()这几个函数。字典和字符串互相转化方法json.dump() / json.dumps() —— 序列化将字典转化为jsonjson.load() / json.loads() —— 反序列化将json转化为字典import json# 序列化: 将字典转化为jsondict_demo = {'a': 1, 'b': 2}json_demo = json.dumps(dict

2020-11-13 21:20:56 176

原创 GA入门课程-评估4

要准确跟踪广告系列，Google Analytics（分析）需要使用哪三种代码？正确！媒介、来源和内容媒介、来源和广告系列广告系列、内容和字词来源、内容和字词哪些代码是标准的 Google Analytics（分析）广告系列参数？（请选择所有适用答案）正确！utm_adgrouputm_sourceutm_mediumutm_content要快速生成广告系列代码，应使用什么工具？正确！Measurement Protocol细分生成工具网址构建工具目标选择工具.

2020-11-13 20:06:05 425

原创 GA入门课程-评估3

必须启用什么设置才能查看“受众特征和兴趣”报告中的数据？正确！内容分组广告功能数据视图的用户权限网页内分析哪种报告最能帮助您找出网站流量存在的潜在浏览器问题？正确！“活跃用户”报告“新访问者与回访者”报告“浏览器与操作系统”报告“来源/媒介”报告哪种报告会显示用户是使用什么移动设备浏览网站的？正确！“网站内容”下的“退出网页”报告“网站内容”下的“着陆页”报告“行为”下的“互动”报告“设备”报告中的“移动”部分对于访问您网站的每位用户，Google Anal.

2020-11-13 18:19:36 305

原创 GA入门课程-评估1

通过使用跟踪代码，Google Analytics（分析）可以在报告中显示来自哪些系统的数据？（请选择所有适用答案）正确！电子商务平台移动应用在线销售终端系统未连接到互联网的系统要使用 Google Analytics（分析）收集数据，必须完成哪些步骤？（请选择所有适用答案）正确！安装 Google Analytics（分析）桌面版软件创建一个 Google Analytics（分析）帐号将 Google Analytics（分析）跟踪代码添加到每个网页中下载 Google.

2020-11-12 21:42:18 322

原创 GA入门课程-评估2

要在报告中比较两个日期范围，应使用哪项功能？正确！时间图表中的“小时”、“天”、“周”、“月”视图实时报告日期范围比较帐号选择器“用户”指标衡量什么？正确！您网站的总访问量在指定的日期范围内，至少处于一个会话中的用户数量到达您的网站首页的用户数量在您的网站上注册了电子邮件简报的用户数量在 Google Analytics（分析）中，什么是“跳出率”？正确！在给定时段内，唯一身份用户回访您的网站的次数用户从您的首页上退出的会话所占的百分比网站退出总次数所占的百分比.

2020-11-12 21:36:44 334

原创 GA入门课程

学习地址google官方提供的备考GA个人资格认证的学习地址课程分为：Google Analytics（分析）入门知识Google Analytics（分析）高级课程入门大纲第 1 单元：Google Analytics（分析）简介第 1 课：为什么要进行数字分析？第 2 课：Google Analytics（分析）的工作原理跟踪代码在每次加载时，都会收集并发送关于用户活动的更新信息。GA会将这些活动归入称为一个会话（session）的时间段。当用户跳转至包含GA跟踪代码的网页时，

2020-11-12 01:09:51 1360 2

原创 Python数据导入导出

文章目录一、pandas数据导入导出数据导入数据导出二、Python读写文件open() 函数使用numpy读写文件一、pandas数据导入导出数据导入pd.read_csv(filename) # 导入csv格式文件中的数据pd.read_table(filename) # 导入有分隔符的文本 (如TSV) 中的数据pd.read_excel(filename) # 导入Excel格式文件中的数据pd.read_sql(query, connection_object) # 导入SQL数据表/

2020-11-11 15:35:26 547

原创模型评估方法（分类、回归）

文章目录一、分类模型评估混淆矩阵准确率、精确率、召回率、F1值P-R曲线ROC曲线和AUC值KS值二、回归模型评估（待更新）一、分类模型评估混淆矩阵、准确率 accuracy、精确率 precision、召回率 recall、F1值P-R曲线、ROC曲线、AUC值KS曲线（KS值）混淆矩阵from sklearn.metrics import confusion_matrixy_pred = [0,1,0,1]y_true = [0,1,1,0]confusion_matrix(y_t

2020-11-11 01:14:15 419

原创参数估计与统计推断

文章目录一、参数估计1.1 点估计1.2 区间估计均值的标准误差（标准误）中心极限定理二、假设检验与单样本T检验2.1 假设检验的两类错误2.2 T检验三、两样本T检验（二分类变量与连续变量）3.1 检验方差齐性的F检验3.2 两独立样本T检验四、方差分析（多分类变量与连续变量）4.1 方差分析假设4.2 ANOVA分析的组内变异、组间变异和总变异五、卡方检验（两个二分类变量）六、相关分析（连续变量与连续变量）一、参数估计总体——研究感兴趣的所有个体组成总体样本——从总体抽取的部分个体组成样本，样本用

2020-11-10 01:25:01 729

原创 Linux基础命令

文章目录Linux介绍文件系统的目录树结构快捷键文档编辑命令命令模式末行模式wc命令文件管理命令catchmodchownfindmorelessmvrmtouchwhichcphead和tailgrep磁盘管理命令pwdcddfmkdirmount/umountlshistory其他管理命令ifconfigpinguseraddpasswdkillsu远程操作ssh, scp, tarsshtar解压缩scp远程拷贝Linux介绍开源、免费、稳定、适合处理高并发（无异常、重启次数很少）生产环境中服务

2020-11-09 22:19:06 532

原创 Python类与对象

封装 ----> 限制直接访问目标属性和方法的机制, 将抽象性函数接口的实现细节部分包装, 隐藏起来的方法同时, 防止外界调用端, 去访问对象内部实现细节的手段,这个手段是由编程语言本身提供的对象所有的内部表征对于外部来说都是隐藏的,只有对象能直接与内部数据交互 --> 需要理解公开 public 和私有 non-public 实例变量和方法# 公开实例变量class Person: def __init__(self, first_name): self

2020-11-09 22:17:38 270

原创变量类型与变量描述

文章目录数据科学的场景数理统计方法1、简单统计2、统计检验（statemodels）数据挖掘的技术与方法数据科学的场景1、客户客户获取与挽回客户细分与透视交叉销售/提升销售与事件触发客户流失与防范2、运营战略绩效管理和运营KPI库存管理与渠道优化现金管理与优化人力资源计划与管理IT管理3、风险信用风险欺诈识别与防范市场与流动性风险操作风险4、财务预算与计划资产负债管理作业成本管理数理统计方法1、简单统计变量组合数值统计直方图条形图

2020-11-08 20:59:02 797

原创数据清洗（缺失、异常处理）

文章目录缺失值填补原则填补方法（待补充）异常值查找原则极端值离群值处理方式盖帽法分箱法缺失值填补原则首选基于业务的填补方法，其次根据单变量分析进行填补。（多重插补进行所有变量统一填补的方法只有在粗略清洗时菜户其使用。）缺失比例填补原则缺失值少于20%连续变量使用均值或中位值填补；分类变量不需要填补，单算一类即可，或者用众数填补缺失值在20~80%填补方法同上；另外每个有缺失值的变量生成一个指示哑变量，参与后续的建模缺失值大于80%每个有缺失值的变量生成一个指示

2020-11-08 20:56:26 785

原创抽样方法

文章目录抽样在挖掘中的作用抽样方法简单随机抽样（SPS）分层抽样（STR）系统抽样多段抽样抽样在挖掘中的作用快速获得数据的基本特征数据量较大，建模速度较慢数据不足时数据平衡数据分为训练集、验证集、测试集抽样方法抽样方法简单随机抽样（SPS）分层抽样（STR）系统抽样多段抽样简单随机抽样（SPS）从总体中不加任何分组

2020-11-08 20:54:44 695

原创 RFM代码

文章目录案例11. 数据格式2. R、F、M指标分布消费金额消费频率最近一次消费距今天数3. 构建模型3.1 R、F、M人为规则打分3.2 获取每个指标下的打分平均值3.3 按照是否大于平均分来分层3.4 分层结果生成标签4. 查看分层人数案例21. 基础数据格式2. 计算R、F、M指标2.1 F反映客户对打折产品的偏好 interest2.2 M反映客户的总消费金额 value2.3 通过计算R反映客户是否为沉默客户 time_new3. 构建模型3.1 等深分桶并做二值化3.2 分层打标结果3.3

2020-11-08 00:54:59 596

原创快速进行数据探索的工具（EDA）

描述pandas_profiling可以用一行代码生成详细的数据分析报告, 与pandas深度结合, 非常适合前期的数据探索阶段, 以及结果数据报告批量化生产。代码import pandas as pdimport pandas_profiling as ppdata = pd.read_csv('xxx.csv')report = pp.ProfileReport(data)report# 生成html文件（可以指定绝对或相对路径）report.to_file('report.ht

2020-11-07 22:10:16 456

原创 Python发送邮件

文章目录步骤模块smtplib基础代码实例：以 QQ邮箱为例email基础代码丰富邮件内容1）构建邮件头 email.header完整发送邮件的写法简单版稍复杂版步骤connect —> login —> send mail —> quit模块smtplibsmtplib 用于邮件的发信动作。基础代码import smtplibserver = smtplib.SMTP() # smtplib.SMTP 下有很多可调用的函数。为了减少代码冗余，已经将需要重复

2020-11-04 18:00:57 330

原创（四）Python时间序列整理

文章目录一、Python中处理时间序列数据的库二、Python中时间序列数据类型2.1 基础类型：时间戳和时间段1）pandas创建时间戳 Timestamp2）pandas创建时间段 Period3）pandas创建时间索引 DatetimeIndex、PeriodIndex2.2 日期空值 NaT三、查看时间戳属性（待更新）四、处理时间序列数据4.1 各种方式下创建时间戳1）datetime.datetime2）numpy.datetime643）pandas.Timestamp4）`pandas.da

2020-11-04 13:57:17 429

原创 Python读写数据库的几种方式

文章目录一、create_engine1. mysql2. redshift二、pyxxxx1. pymysql2. pymongo三、redisSQLAlchemy一、create_engine1. mysqlfrom sqlalchemy import create_engine# engine = create_engine("mysql+pymysql://user:password@localhost:3306/credit?charset='utf8'")engine = creat

2020-11-04 10:33:37 487

原创 requests（待更新）

文章目录res = requests.get('www.baidu.com')'''返回的 res 是 Response类，它主要有以下方法：response.status_coderesponse.contentresponse.textresponse.encoding'''response对象的常用属性属性作用response.status_code检查请求是否成功response.content把response对象转换为二进制数据respo

2020-11-04 10:17:29 129

原创（十）Python数据分析与挖掘实战（实战篇）——家用电器用户行为分析与事件识别

这个专栏用来记录我在学习和实践《Python数据分析与挖掘实战》一书时的一些知识点总结和代码实现。文章目录背景和目标数据热水器属性说明4类属性指标的构建表脚本divide_event.pythreshold_optimization.pyneural_network.py分析方法和过程方法流程背景和目标用户在使用家用电器过程中，会因为地区气候、不同区域、用户年龄性别差异，形成不同的使用习惯。家电企业若嫩更深入了解不同用户群的使用习惯，开发新功能，就能开拓新市场。本案例基于热水器采集的时间序列数据.

2020-11-01 18:31:43 1364

原创（八）Python数据分析与挖掘实战（实战篇）——中医证型关联规则挖掘

这个专栏用来记录我在学习和实践《Python数据分析与挖掘实战》一书时的一些知识点总结和代码实现。文章目录背景和目标数据原始属性表脚本discretization.pyapriori_rules.pyapriori.py分析方法和过程方法流程背景和目标借助三阴乳腺癌患者的病理信息，挖掘患者的症状与中医证型之间的关联关系对截断治疗提供依据，挖掘潜性证素数据原始属性表属性名称属性描述实际年龄发病年龄初潮年龄既往月经是否规律是否痛经.

2020-11-01 17:45:15 1144

原创（七）Python数据分析与挖掘实战（实战篇）——航空公司客户价值分析

文章目录背景和目标数据客户基本信息乘机信息积分信息脚本data_explore.pydata_clean.pyzscore_data.pyKMeans_cluster.pycluster_plot.py分析方法和过程方法流程模型解释模型应用拓展背景和目标通过客户分类，区分无价值客户、高价值客户，从而针对不同人群制定优化的个性化服务方案，采取不同的营销策略，将有限营销资源集中于高价值客户，实现企业利润的最大化目标。准确的客户分类结果是企业优化营销资源的重要依据，客户分类越来越成为客户关系管理中急需解决

2020-11-01 16:24:49 1606

原创（五）Python数据分析与挖掘实战——挖掘建模

文章目录代码logistic_regression.pydecision_tree.pyneural_network.pyk_means.pytsne.pyapriori.pyarima_test.pydiscrete_point_test.pycal_apriori.pycm_plot.py挖掘建模分类与预测逻辑回归决策树人工神经网络分类与预测算法评价Python分类预测模型特点聚类分析代码logistic_regression.py这里利用稳定性选择方法中的随机逻辑回归进行特征筛选，然后利用筛选后

2020-10-27 00:46:17 831 1

原创（四）Python数据分析与挖掘实战——数据预处理（清洗、规约）

这个专栏用来记录我在学习和实践《Python数据分析与挖掘实战》一书时的一些知识点总结和代码实现。文章目录数据脚本lagrange_newton_interp.pydata_normalization.py 归一化data_discretization.py 离散化line_rate_construct.pywave_analyze.pyprincipal_component_analyze.py 主成分数据catering_sale.xlsnormalization_data.xlsdis.

2020-10-26 22:30:46 1157

原创（三）Python数据分析与挖掘实战——数据探索

文章目录数据abnormal_check.pystatistics_analyze.pydish_pareto.pycorrelation_analyze数据catering_sale.xlscatering_dish_profit.xlscatering_sale_all.xlsabnormal_check.py#-*- coding: utf-8 -*-import pandas as pdcatering_sale = '../data/catering_sale.xls' #

2020-10-25 22:53:58 782

原创 Python使用过程中的tips

此文档以tip的形式，将常用的、且日常容易遗忘的一些知识点予以整理，方便使用时查找。文章目录lambda函数常见的列表/元组相关函数列表表达式列表转换为字典集合运算函数式编程 Functional Programmingmap()函数reduce()函数filter()函数lambda函数f = lambda x: x+2 # 定义函数 f(x) = x+2g = lambda x,y: x+y # 定义函数 g(x,y) = x+y常见的列表/元组相关函数函数功能.

2020-10-25 22:13:13 382

原创向量和矩阵-基础知识

文章目录一、向量二、矩阵几种特殊的矩阵1. 对称矩阵2. 正交矩阵3. 正定矩阵、半正定矩阵4. 不定矩阵5. 负定矩阵和半负定矩阵一、向量二、矩阵几种特殊的矩阵1. 对称矩阵生成对阵矩阵X = np.mat([[1,2,3],[4,5,6],[7,8,9]])A = np.triu(X)print(A)[[1 2 3] [0 5 6] [0 0 9]]A+A.T-np.diag((np.diagonal(X)))array([[1, 2, 3], [2,

2020-10-25 19:07:30 476

原创（三）Matplotlib基础绘图指令

文章目录简介一、基础设置项（待更新）中文显示二、单图常见配置文本显示函数指定横纵坐标范围 `plt.axis`plot函数（颜色、风格、标识）三、绘制多个子图分开的多个子图方法一：直接操作plt.subplot方法二（推荐）：面向对象绘图1）先生成fig，再通过fig.add_subplot()分步生成对象ax2）直接生成fig和ax，调用ax对象的方法（推荐）3）直接生成fig和ax，通过pandas DataFrame的绘图命令，在参数中指定ax子区域自定义叠加在同一个图上的多个子图（待更新）四、将输出

2020-10-25 00:59:51 549

原创（一）Numpy数据类型及常用命令

文章目录一、Numpy数据类型ndarray 类型属性, 创建和变换Numpy的数据类型数组的索引和切片二、Numpy常用函数操作函数元素级数组函数一元函数二元函数排序去除重复值查看一个数组中的值是否在另一个数组中统计函数数组的集合运算线性代数计算常用的 numpy.linalg 函数其他操作Numpy查询条件查询Numpy随机数生成numpy.random模块一、Numpy数据类型ndarray 类型属性, 创建和变换# 创建ndarraynp.array(d1) np.array([1,2

2020-10-24 20:57:54 231

原创（二）Pandas数据类型及常用命令

文章目录一、整体介绍1.1 Pandas 优点1.2 Pandas的数据类型1.3 Series 和 DataFrame 共性索引和列信息查看标量化计算查看是否包含某个元素值二、Series和DataFrame常用操作2.1 SeriesSeries的索引操作2.2 DataFrame2.2.1 创建DataFrame对象输入数据类型实例（创建及reindex）2.2.2 查询和赋值通过行列索引查询条件查询数据赋值2.2.3 索引和切片（待补充）索引对象切片map和apply函数（待补充）元素级运算（待补充

2020-10-24 20:14:13 486

原创（一）整体目标及数据挖掘流程介绍

文章目录背景及目标餐饮行业的信息化管理介绍一些可行的策略点提炼数据挖掘的通用步骤一、目标定义二、数据采集三、数据整理四、构建模型五、模型评价六、模型发布背景及目标这一章通过选择了一个餐饮行业的真实案例来进行分析，在一些具体业务描述上会更贴近餐饮行业，但整体的思路对其他行业还是有可借鉴的地方的。餐饮行业的信息化管理介绍客户关系管理系统相当于是每个公司都会有的CRM系统，通过对客户的信息的详细分层，从而可以针对不同人群实行不同的运营策略，为客户提供个性化服务，从而达到整体效益的最优化。例如

2020-10-24 19:24:51 303

触手可及的大数据分析工具_Tableau案例集

数据可视化分析利器Tableau的基本操作指南和案例集完整版。本书分为五个部分共14章：Tableau使用概述、新手上路、成功晋级、高手秘籍以及实际应用。 Tableau使用概述包含四章，分别从为何要进行数据可视化、Tableau的发展历程、Tableau的产品介绍、Tableau 9.0的新特性、Tableau的应用优势以及如何利用Tableau进行数据连接和了解工作区几个方面做了详尽的阐述。新手上路包含两章，该部分以各行业案例为依托，带你从Tableau的排序、筛选、分层和分组、参数和函数等方面来全面了解Tableau 9.0的新功能。成功晋级包含四章，分别从不同行业的案例入手介绍Tableau的功能。高手秘籍包含三章，该部分介绍如何利用 Tableau中的颜色和形状进行异常值检测、如何利用背景图像进行货架分析以及如何使用Tableau中的超级链接使用WMS地图服务和动态调用外部网页。实际应用自成一章包含八个数据可视化分析实例，全面展示Tableau进行数据可视化分析的各种技术细节和实用技巧。本书对于初次接触Tableau软件的读者会有很大帮助，书中对Tableau创建可视化视图的每一步操作都有详尽的说明。

2017-09-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人