自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

汪雯琦的博客

Python全栈(Python基础+进阶+Linux+数据库+Web+数据挖掘+大数据+人工智能+Go)

  • 博客(49)
  • 资源 (6)
  • 收藏
  • 关注

原创 数据分析模型及商业决策(二):主要分析方法之聚类分析方法

文章目录数据分析中主要的分析方法与统计概念连接起来的重点四个方法的内在联系数据分析驱动业务的根本目标聚类分析方法1.聚类分析是什么2.常见的聚类分析应用场景客户分群的目的客户分群的数据维度客户管理和市场营销的从业者们的应用基于聚类的客户分群的作用某个旅游企业对用户数据的积累K-Means聚类==核心:====是一种快速聚类法==具体的工作流程数据分析中主要的分析方法聚类分析 (怎么判断用户属...

2020-04-19 15:29:41 2569 1

原创 用户画像(四):基于用户搜索数据可以做什么,采取哪些方案呢

可以基于用户搜索关键词数据为用户打赏标签比如年龄,性别,学历这个的整体流程如下:(一)数据预处理编码方式转换对数据搜索内容进行分词词性过滤数据检查(二)特征选择建立word2vec词向量模型对所有搜索数据求平均向量(三)建模预测不同机器学习模型对比堆叠模型将原始数据转换成utf-8编码,防止后续出现各种编码问题以下代码基于1w的数据...

2020-04-14 23:25:08 1015

原创 SQL中怎么增加一列,且值根据其它字段的情况而不同(case when。。。then。。。else。。。end)

名称表name由于 id1 和 id2 中存在一定量的空值记录,现在原表基础上添加一列,要求:当 id1 为空 时,记录 id2 的值;当 id2 为空时,记录 id1 的值。请写出满足条件的 SQL。select * from name;select id1,id2 from name;select id1,id2,case when id1 is null then id2 el...

2020-04-11 13:52:40 3185

原创 关于最短路径算法的理解

“最短路径算法:Dijkstra算法,Bellman-Ford算法,Floyd算法和SPFA算法等。​从某顶点出发,沿图的边到达另一顶点所经过的路径中,各边上权值之和最小的一条路径叫做最短路径。”我们解决最短路径问题,常用的是Dijkstra与Floyd算法Dijkstra(迪杰斯特拉)算法他的算法思想是按路径长度递增的次序一步一步并入来求取,是贪心算法的一个应用,用来解决单源点到其余顶点的...

2020-04-07 10:51:44 4679 7

原创 【我的数据挖掘竞赛之旅(二)】二手车交易价格预测——2020年天池阿里云竞赛Task5模型融合

文章目录模型融合是什么模型融合的类型Stacking相关理论本次比赛的代码stacking融合(回归)分类模型的融合模型融合是什么我理解的Kaggle比赛中提高成绩主要有3个地方特征工程调参模型融合模型融合是kaggle等比赛中经常使用到的一个利器,它通常可以在各种不同的机器学习任务中使结果获得提升。顾名思义,模型融合就是综合考虑不同模型的情况,并将它们的结果融合到一起。模型融合主...

2020-04-04 21:10:33 1596

原创 对关联优化查询建议

【关联优化查询建议】1、保证被驱动表的join字段已经被索引  被驱动表  join 后的表为被驱动表  (需要被查询)2、left join 时,选择小表作为驱动表,大表作为被驱动表。  但是 left join 时一定是左边是驱动表,右边是被驱动表3、inner join 时,mysql会自己帮你把小结果集的表选为驱动表。  mysql 自动选择。小表作为驱动表...

2020-04-24 20:30:47 621 2

原创 创业公司初期关注哪些指标

可预期增长率是什么?销售团队效率如何?销售漏斗的健康状态如何?增长率指标公司都想着成长,销售的主管更得有远大目标。但是有着一个增长率有误的目标,可难保不出差错。更要紧的是,达到既定目标对成长期中全公司上下的士气影响很大。依托历史数据确定正确的增长率指标有下面四个关键标准:• 订单——首先,定下衡量标准:MCV(月成交额),ACV(年成交额),TCV(总成交额)或者软件订单。衡量标准决定了...

2020-04-21 17:09:42 1356

原创 高级Excel技能(一):怎么保护锁定工作簿,不让别人看内容、不让别人改结构、不让别人修改数据

(1)文件(2)信息(3)保护工作簿(4)用密码进行加密

2020-04-20 23:51:44 3892

原创 数据分析模型及商业决策(五):主要分析方法之组间差异分析(AB测试)

分类之后AB测试:将某个产品/方案/设计的两个不同版本随机展示给类似的用户群体,以各组之间的效果差异来评估选择更好的那个应用场景:测试两种促销短信文案对商品销量的影响测试淘宝,京东以及今日头条等APP,哪个版本的新闻标题或者广告会更容易被点击技术支持:系统后台已经有了丰富的历史销售数据通过大数据获取到用户的人口属性信息(挑选测试客群变得非常容易)自动化营销系统辅助AB版本的...

2020-04-20 13:46:18 1572

原创 数据分析模型及商业决策(四):主要分析方法之分类分析方法

分类用来实现用户的精准营销案例挖掘最有可能购买产品的用户群数据中要有目标变量x包括顾客的基本信息逻辑回归属于分类模型的一种评判逻辑回归的好坏具体的实现,见python专栏...

2020-04-19 23:31:37 803

原创 数据分析模型及商业决策(三):主要分析方法之回归分析方法

文章目录引入例子引入数据中变量的相关关系是为我们做出预测的基本前提例子用户的性别和所使用手机的品牌之间的关系观察数据:可以看出,有三分之二的女性喜欢的是iphone手机如果再给我们6个女性用户,我们就会正确判断4次,错误判断2次...

2020-04-19 23:23:16 683

原创 数据分析模型及商业决策(一):带你一文掌握统计学基础

文章目录【描述数据的统计学工具】一、统计分为两大类二、数据案例引入2.1销售数据2.2销售额表现怎么样?2.3可视化三、数据的集中度四、数据的离散度五、数据的相关性5.1案例5.2散点图5.3计算相关系数六、总结【概率与概率分布】一、描述性统计的局限性二、两种主要的数据类型三、概率四、应用4.1从分类型数据来看概率的具体应用4.2从数字型数据来看概率的具体应用正态分布【估计和假设检验验证】一、样本...

2020-04-19 12:49:01 2715

原创 解决Tableau中怎么生成经纬度,显示不了地图

问题:我们双击省、自治区但是没有自动生成经纬度分析:因为字段的类型不对,是abc而不是地图,解决:修改字段的类型在数据源这里修改修改成对应的地图就会自动生成经纬度了加上件数等其他维度也可以了...

2020-04-17 15:48:39 22935 4

原创 手把手教你操作Tableau——真实公司数据分析项目实例(完整详细,小白也能学会)

业务问题业务部门给报表提供了下列的要求:想要知道那些地区的销售情况比较好,那些地区的销售情况比较差,因此希望能够看到销售指标在全国的分布情况想要了解今年的销量和前几年相比是否有增长,因此需要看到销量随着时间的走势想要有没有卖的件数少但是消费金额高的优质客户?因此需要了解交易笔数和交易金额两者的分布以及两者之间是否存在一定的相关关系需要销售报表,产品信息和会员信息步骤:1.打开tabl...

2020-04-16 23:46:07 33593 44

原创 【数据分析小技能】几种数据可视化及应用场景

1.比较数据的大小如果目的是比较数据的大小是否按照时间维度进行大小的比较?如果是,折线图是最佳的选择如果不是,条形图或柱状图2.展示数据的组成没有标记时间,用饼图显示不同时间点下的展示,叠加柱状图3.了解数据的分布分类型变量的使用上可以按照每十岁一组来进行各年龄段的分布4.找到数据的关系散点图:两个数字型变量之间的关系气泡图:增加气泡大小的维度做好可视化的原则低效率报...

2020-04-16 22:40:49 934

原创 SQL语言的执行顺序

数据库系统执行一段SQL语言时的工作流程首先去找from或join中提到的表,确定所需要的的表是否存在根据where语句中筛选条件对记录进行筛选,只保留满足条件的记录如果有的话执行聚合语句group by和筛选语句having的部分最后执行select部分的相关语句...

2020-04-16 22:34:04 448

原创 SQL中怎么查询阅读时间在营销活动推广时间一天内

create table push_reader as select DISTINCT a.*,b.drop_dt from `sony_push detail` a inner join sony_push b on a.camp_id = b.camp_id where a.read_date>=b.drop_dt and a.read_date<=date(b.drop_...

2020-04-16 21:45:35 383

原创 SQL中运行 full outer join全连接报错是为什么

MySQL不支持 full outer join,如何做全连接(企业版可支持)select s.camp_id,s.camp_name,k.read_flag from sony_push s full outer join `sony_push detail` k on s.camp_id=k.camp_id;报错:select s.camp_id,s.camp_name,k.rea...

2020-04-16 11:59:35 3317

原创 SQL中永久的修改表的字段名字

永久修改字段名字,需要创建新表原表:select *from sony_members;短暂修改表的字段名字:select age as age2 from sony_members;永久修改表的字段名字ALTER TABLE sony_members CHANGE age age2 int;select *from sony_members;...

2020-04-15 23:27:40 2794

原创 SQL中将同一个字段的日期时间进行拆分

数据里子:注册日期字段为‘2020-10-09’这样我们将它拆分为年份和日期可以使用SQL中的left函数和right函数用以取出某个字符串中特定长度的字符代码如下:select member_id,left(registration_date,4) as year,right(registration_date,5) as date from sony_members;原来...

2020-04-15 23:21:13 7238

原创 数据分析中数据异常的种类,第三个你一定想不到~

数据异常的三种主要类型(1)违背常识的错误比如调查上海市某小区居民的月收入,出现了小王的收入为-5000,这就属于异常值(2)数据的离群值离群值是指与其他数据差异较大,会对数据分析结果产生影响的观测值,比如说一个人月收入是1000000000000000000000000元离群值的判断和处理:1.检查同一客户原表里面是否有同样的数值2.再检查这个数据是怎样收集来的3.从技术角度评估...

2020-04-15 14:12:41 6164

原创 用户画像(七):基于用户搜索数据,建立预测模型

绘图函数,以性别为例,绘制混淆矩阵import matplotlib.pyplot as pltimport itertoolsdef plot_confusion_matrix(cm, classes, title='Confusion matrix', cmap=plt.cm.Blue...

2020-04-14 23:53:50 1300

原创 用户画像(六):基于用户搜索数据,构造输入特征

加载训练好的word2vec模型,求用户搜索结果的平均向量import numpy as npfile_name = './data/train_querylist_writefile-1w.csv'cur_model = gensim.models.Word2Vec.load('1w_word2vec_300.model')with open(file_name, 'r') as f:...

2020-04-14 23:51:20 607

原创 用户画像(五):基于用户搜索数据,姊妹构造词向量特征

第一步:生成对应的数据表import pandas as pd#编码转换完成的数据,取的是1W的子集trainname = './data/user_tag_query.10W.TRAIN-1w.csv'testname = './data/user_tag_query.10W.TEST-1w.csv'data = pd.read_csv(trainname,encoding='gb...

2020-04-14 23:48:33 775

原创 用户画像(三):对用户搜索数据的理解

第一列是id第2,3,4列分别是年龄,性别,学历,我们已经有了这些数据要去形成搜索和这些标签的模型然后根据新的数据,来做这三个标签的用户画像...

2020-04-13 23:05:41 948

原创 用户画像(二):给大家分享一套我建立用户画像的思维

文章目录怎么建立用户画像呢例子用户画像的应用怎么建立用户画像呢要贴标签,先要有数据,一般讲用户数据划分为静态信息数据、动态信息数据两大类。静态数据:用户相对稳定的信息,如性别、地域、职业、消费等级等。动态数据:用户不停变化的行为信息,如浏览网页、搜索商品、发表评论等。手工去做?人为贴标签?刚开始可以手工,但长期的话,人力的成本会越来越高滴!!需要我们找到最合适的数据,去建模一个体系...

2020-04-13 22:25:37 916

原创 用户画像(一):我对用户画像的理解

文章目录什么是用户画像你知道吗为什么需要用户画像你知道吗什么是用户画像你知道吗在我的理解就是用户信息的标签化,您只需要掌握以下几点就好了:Persona是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型根据用户的目标、行为和观点的差异,将题目区分为不同的类型,每种类型中抽取出典型特征,形成了一个人物原型通俗解释:用户信息标签化官方回答:用户画像又称用户角色,作为一种勾...

2020-04-13 21:31:58 1665

原创 SQL中怎么表示不等于你知道吗?SQL中怎么筛选奇数偶数?

不等于:尽量用<>表示,大部分都是支持的筛选奇数:mod(id,2) 也可以直接用 id % 2来表示=1

2020-04-12 21:51:45 2235

原创 SQL中怎么去除重复的号码,并且保留最早填写的

个人信息表的重复号码个人信息表 info:唯一主键注册人员编号 no,注册日期 ctime,以及手机号码 phone_num。由于一个注册人 只能有一个注册手机号码,系统中手机号存在重复,属于系统 bug。(1)、找出重复的手机号码,以及对应的注册人信息;select * from info;select phone_num,count(phone_num) from info gr...

2020-04-11 13:39:44 2327

原创 SQL中开窗函数row_number() over的用法

作用可用于一下类似题目:去除重复的项,保留最低的价格开窗函数row_number()的基本语法为row_number() over (partition by column1, column2 order by column3 desc) as new_name该函数的作用是,按照column1和column2对数据进行分组,在每一个分组内,按照column3进行排序,排序之后,对每一...

2020-04-11 13:33:19 1769

原创 常用非线性模型和线性模型的理解

线性模型LinearRegression线性回归Lasso回归:L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。由此发现power与userd_time特征非常重要。Ridge回归:L2正则化在拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型,因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。非线性模...

2020-04-09 10:27:50 4353 1

原创 一些常用建模调参方法的总结

贪心调参 (坐标下降)坐标下降法是一类优化算法,其最大的优势在于不用计算待优化的目标函数的梯度。最容易想到一种特别朴实的类似于坐标下降法的方法,与坐标下降法不同的是,不是循环使用各个参数进行调整,而是贪心地选取了对整体模型性能影响最大的参数。参数对整体模型性能的影响力是动态变化的,故每一轮坐标选取的过程中,这种方法在对每个坐标的下降方向进行一次直线搜索(line search)网格调参Grid...

2020-04-09 09:55:26 1404

原创 对促销活动效果评估的一些思考

如何评估一档促销活动

2020-04-09 00:22:27 967

原创 对预测销售情况的一些思考,需要从那几个方面去分析呢?

1.销售预测的定义销售预测是指根据以往的销售情况以及使用系统内部内置或用户自定义的销售预测模型获得的对未来销售情况的预测。销售预测可以直接生成同类型的销售计划。销售计划的中心任务之一就是销售预测,无论企业的规模大小、销售人员的多少,销售预测影响到包括计划、预算和销售额确定在内的销售管理的各方面工作。销售预测是指对未来特定时间内,全部产品或特定产品的销售数量与销售金额的估计。销售预测是在充分...

2020-04-09 00:09:43 2261

原创 你知道吸引新客选择产品的角度从哪些方面考虑吗?产品研发后怎么评估呢?

网易严选是网易旗下原创生活类自营电商品牌,深度贯彻“好的生活,没那么贵”的品牌理念。商品覆盖居家、餐厨、配件、服装、洗护、母婴、原生态饮食等几大类目,兼具品质和性价比,得到用户的广泛好评。若你是网易严选负责商品的数据分析师,当面对以下业务问题时,你会如何解决?① 用户增长团队期望选择一批合适的商品用于吸引新客,期望你帮助从数据的角度筛选出一批合适的商品,你会如何帮助他们进行筛选?请描述你的思路。...

2020-04-07 18:40:47 1183 2

原创 对电商数据分析中用户分析的思考

用户分析是电商数据分析中重要的模块,在对用户特征深度理解和用户需求充分挖掘基础上,进行全生命周期的运营管理(拉新—>活跃—>留存—>价值提升—>忠诚)用户第一单购买的行为往往反映了用户对平台的信任度和消费能力。在公司中常常需要用SQL语句查出这个需求:现在数据库中有一张用户交易表order,其中有userid(用户ID)、amount(消费金额)、paytime(支...

2020-04-07 17:51:36 870

原创 学完这个语句,你可以做出所有的SQL笔试题(查询到的表格怎么存储再次使用)

视观表 (View) 可以被当作是虚拟表格。它跟表格的不同是,表格中有实际储存资料,而视观表是建立在表格之上的一个架构,它本身并不实际储存资料。建立一个视观表的语法如下:CREATE VIEW "VIEW_NAME" AS "SQL 语句";例子:我们查询到:select a.SKU_ID,a.logday,a.sale_amt,b.bu_name,b.brand_name,b.use...

2020-04-06 17:02:07 1468

原创 SQL中的case...when...还能这么用(计算好评率、计算出有条件的字段的数量)

文章目录SQL之CASE WHEN用法详解场景1:有分数score,score<60返回不及格,score>=60返回及格,score>=80返回优秀场景2:现老师要统计班中,有多少男同学,多少女同学,并统计男同学中有几人及格,女同学中有几人及格,要求用一个SQL输出结果。场景3:经典行转列,并配合聚合函数做统计,现要求统计各个城市,总共使用了多少水耗、电耗、热耗,使用一条SQL...

2020-04-06 15:03:52 4062 2

原创 卡特兰数背后的思考

我们从一道面试题引入:题目:题目: 有20个人去看电影,电影票50元。其中只有10个人有50元钱,另外10个人都只有一张面值100元的纸币,电影院没有其他钞票可以找零,问有多少种找零的方法?解析:这20个人不是一起的所以第一个人必须是50元要想后续每次都找的开,那么在每一次收钱的时候,收银员已经收过的50元的个数要大于已经收过的100元的个数。从(0,0)开始记录收银员已经收银的状态...

2020-04-06 00:24:25 403

原创 一道很经典的算法题

题目:用13的瓷砖密铺满320的地板的20那条边有几种方式?解析:以上加总为1278;

2020-04-05 23:35:35 724 1

Power BI自定义图表.rar

附件中是Power BI如何导入自定义视觉图像(附上百种自定义视觉图像),可以直接导入使用~~~解压缩之后,打开Power BI软件,选择最右边的导入自定义视图即可

2020-03-08

线性回归公式求解.ipynb

对应博客:https://blog.csdn.net/qq_35456045/category_9697906.html

2020-02-24

seaborn-data.rar

这个是啊seaborn的数据集,它里面包括鸢尾花的数据,小费的数据集,因为很多人在官网上下不下来,然后用iris = sns.load_dataset('iris')的方法下载起来也会jupyter notebook卡顿,所以我将seaborn的所有数据集传上来,仅供有需要的同学下载。

2020-02-18

hr必问100问.txt

hr面试题库,包括很多常见问题以及一些想不到的问题!!!重要的是里面都有详解和答题思路和逻辑,是程序员面试必备的资料哦

2020-02-14

numpy数据分析源代码+大数据的读取_.ipynb

blog链接:https://blog.csdn.net/qq_35456045/article/details/104319408 详细的,有解释的源代码哦 pandas数据处理 1、删除重复元素 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True df.duplicated() 返回bool型的值,如果不重复返回false ,有重复值返回Ture 2. 映射 使用replace()函数,对values进行替换操作 1)replace还经常用来替换NaN元素 2) rename()函数:替换索引 3) map()函数:新建一列 transform()和map()类似 apply() agg() 3. 异常值检测 4. 排序 sort_values() sort_index() 5. 数据聚合【重点】 add_prefix()添加前缀 可以使用transform和apply实现相同功能 离散化和分箱 奥巴马VS罗姆尼 时间序列 重采样 大数据读取

2020-02-14

pandas中绘图函数.ipynb

pandas中绘图函数,Series和DataFrame都有一个都有一个生成各类图标的plot方法,默认情况下锁生成的都是线形图,包括线形图、柱状图、直方图、散点图、随机百分比密度图、散布图等,有一些汽车和鸢尾花的案例。代码详细有说明。python实现的。对应的blog专栏: https://blog.csdn.net/qq_35456045/category_9709051.html

2020-02-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除