dataWhale
文章平均质量分 95
Mounvo
you are more than what you have become
展开
-
【2021.08】python会员数据化运营task2
基于RFM的精细化用户管理1.案例背景对用户进行分组可以更好的了解用户价值。本案例使用某企业四年的家电订单数据,使用RFM模型对用户进行分组,基于业务部门的用户分群需求,我们计划将RFM的3个维度分别作3个区间的离散化,这样出来的用户群体最大有27个。从交付结果看,给业务部门做的分析结果都要导出成Excel文件,用于做后续分析和二次加工使用。另外,RFM的结果还会供其他模型的建模使用,RFM本身的结果可以作为新的局部性特征,因此数据的输出需要有本地文件和写数据库两种方式。本节案例选择了4年的订单数据原创 2021-08-31 14:31:03 · 328 阅读 · 0 评论 -
【2021.08】python会员数据化运营task01
文章目录学习目的学习目的1、了解企业数据化运营中,运用数据工具对会员进行运营的思路和方法2、了解RFM模型的运用3、掌握Python处理数据的技巧4、掌握EXCEL表的可视化图表及透视工具原创 2021-08-22 23:14:26 · 736 阅读 · 0 评论 -
【2021.07】datawhale组队学习李宏毅 总结
文章目录01机器学习介绍02 回归step1:modelstep2:评价一个模型的好坏step3:使用gradient descent进行优化优化03 误差估测方差和偏差偏差 v.s. 方差04 训练集划分交叉验证N-fold cross validation05 gradient descent06 深度学习step1:神经网络step2:模型评估step3:选择最优函数0708 卷积神经网络CNN特征CNN架构对这一期的组队学习内容进行总结梳理。01机器学习介绍【2021.07】datawhale原创 2021-07-25 23:16:26 · 442 阅读 · 1 评论 -
【2021.07】datawhale组队学习李宏毅task06
本笔记为datawhale7月组队学习笔记,视频链接:李宏毅《机器学习》 p21 李宏毅《机器学习》 p21 卷积神经网络开源文档:卷积神经网络文章目录为什么用CNN?small regionSame patternsSubsamplingCNN架构ConvolutionProperty 1Property 2convolution 和 fully connected之间的关系Max poolingFlattenCNN in KerasCNN学到了什么?分析全连接层让图更像数字Deep DreamDee原创 2021-07-25 00:28:05 · 178 阅读 · 0 评论 -
【2021.07】datawhale组队学习李宏毅task05
文章目录Small gradient如何分辨local minima 和 saddle point?为什么我们想要知道是卡在local minima 还是 saddle point呢?Warning of MathTayler Series Approximation如果卡在saddle pointBatch and Momentumsmall batch v.s. large batchLarger batch size does not require longer time to compute gr原创 2021-07-21 23:47:35 · 180 阅读 · 0 评论 -
【2021.07】datawhale组队学习李宏毅task04
文章目录深度学习的发展趋势深度学习的三个步骤Step1:神经网络完全连接前馈神经网络全链接和前馈的理解深度的理解矩阵计算本质:通过隐藏层进行特征转换示例:手写数字识别Step2:模型评估Step3:选择最优函数反向传播思考隐藏层越多越好?普遍性定理本笔记为datawhale7月组队学习笔记,视频链接:李宏毅《机器学习》 p13深度学习开源文档:深度学习深度学习的发展趋势回顾一下deep learning的历史:1958: Perceptron (linear model)1969: Perce原创 2021-07-17 22:27:08 · 205 阅读 · 0 评论 -
【2021.07】datawhale组队学习李宏毅task03
文章目录误差的来源估测bias和variance估测估测x的偏差和方差评估x的偏差估测x的方差多个f不同模型的方差不同模型的偏差偏差v.s.方差误差来自方差还是偏差?偏差大-欠拟合方差大-过拟合模型选择交叉验证N-fold cross validationgradient descentadaptive learning rateAdagrad 是什么?Adagrad举例多参数下结论不一定成立进一步的解释随机梯度下降法特征归一化warning of math泰勒展开式梯度下降的限制Gradient Desc原创 2021-07-16 23:38:36 · 193 阅读 · 0 评论 -
【2021.07】datawhale组队学习李宏毅task02
文章目录回归定义和应用例子回归定义应用举例模型步骤step1:模型假设单个特征:一元线性模型多个特征:多元线性模型step2: 模型评估 goodness of function1、收集和查看训练数据2、定义模型的好坏step3:最佳模型 - 梯度下降如何筛选最优的模型(参数w,b)梯度下降推演最优模型的过程梯度下降在实际应用中面临的挑战w和b偏微分的计算方法如何验证训练好的模型的好坏更加强大复杂的模型:1元N次线性模型过拟合问题出现步骤优化更多的input正则化总结案例此文章为datawhale2021原创 2021-07-14 22:43:08 · 259 阅读 · 0 评论 -
【2021.07】datawhale组队学习李宏毅task01
文章目录机器学习介绍hand-crafted rules监督学习regressionclassificationstructured learning选择模型半监督学习迁移学习无监督学习强化学习课程提示为什么要机器学习机器学习介绍hand-crafted rules河狸天生的能力就是筑水坝,用程序语言来描述就是:if 河狸听到水流声then 河狸开始筑水坝直到听不见流水声这里的要求只有听到水流声,因此生物学家可以通过播放水流声的方式来欺骗河狸筑水坝。我们模仿这种方式来做一个chat-box,在原创 2021-07-13 00:12:54 · 233 阅读 · 2 评论 -
Task2个人网站的搭建
文章目录01 项目创建1.1地址配置1.3 创建超级管理员1.4 修改后台语言1.5 创建表1.6 添加到后台2 修改页面逻辑2.1 添加页面模板文件夹2.2 添加文章详情页面03 部署3.1 安装 PyMysql3.2 修改 Settings.py 文件01 项目创建1.1地址配置先启动虚拟环境+打开宝塔的界面注意一下之前跟着视频安装的mysql版本是5.5,现在要改成安装8.0。在网站子菜单栏中选择添加站点设置内容忘记截图了,记得截图一下数据库的用户和密码。用户:blog密码:同宝塔原创 2021-06-21 01:25:15 · 124 阅读 · 0 评论 -
datawhale组队学习Django—day00&day01
文章目录基础软件安装UbuntuUbuntu内操作ssh连接什么是sshubuntu安装ssh服务启动服务器的SSH服务ssh本地连接ubuntuvscode部署ubunturemote - SSH安装连接ubuntupython环境vscode在ubuntu写代码环境配置代码运行Django环境配置Django简单使用环境再检查Python基础知识数据类型流程控制函数HTML基础HTML文件基本组成通过宝塔上传已有的文件基础软件TyporaVmware 虚拟机Ubuntu 镜像Vscode向原创 2021-06-16 23:20:09 · 112 阅读 · 0 评论 -
智慧海洋——task2 数据分析
task2 数据分析2.1 学习目标学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值、异常值)学习了解变量之间的相互关系、变量与预测值之间的存在关系。完成相应学习打卡任务2.2 内容介绍数据总体了解读取数据集并了解数据集的大小,原始特征维度;通过info了解数据类型;粗略查看数据集中各特征的基本统计量缺失值和唯一值查看数据缺失值情况查看唯一值情况数据特性和特征分布三类渔船轨迹的可视化坐标序列可视化三类渔船速度和方向序列可视化三类原创 2021-04-17 02:11:07 · 395 阅读 · 2 评论 -
第七章 缺失数据
第七章 缺失数据一、缺失值的统计和删除1、缺失信息的统计缺失数据可以用isna或isnull(两个函数没有区别)来查看每个单元格是否缺失,通过和sum的组合可以计算出每列缺失值的比例:df = pd.read_csv('joyful-pandas/data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer'])df.isna().head()GradeName原创 2021-01-03 23:15:02 · 259 阅读 · 0 评论 -
综合练习
综合练习????:http://datawhale.club/t/topic/579【任务一】企业收入的多样性【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:其中 p(xi) 是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年份的收入熵指标 I 。【数据下载】链接:https://pan.原创 2021-01-01 23:55:13 · 179 阅读 · 0 评论 -
第六章连接
第六章 连接一、关系型连接1、连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,这个键十分重要,往往用on参数表示。另一个重要的要素是连接的形式,连接函数merge和join中提供了how参数来代表连接方式,分为左连接left、右连接right、内连接inner、外连接outer,它们的区别可以用如下示意图表示:左连接:以左边的键为准,如果右边表中的键存在于左边,则将该键在右边中的值添加到左表中,否则处理为缺失值。右连接:以右边的键为准。内连接:只合并两边同时出现的键。原创 2020-12-29 23:48:57 · 264 阅读 · 0 评论 -
第五章 变形
第五章 变形一、长宽表的变形一个表中把性别存储在某一个列中,那么它就是关于性别的长表,如果性别的值包含在列名中,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。也可以理解为,就性别这一特征来说,长表的一行数据量少,行数多,宽表的一行数据量大,行数少。下面的两张表就分别是关于性别的长表和宽表:pd.DataFrame({'Gender':['F','F','M','M'], 'Height':[163, 160, 175, 180]})# Gender Height# 0 F原创 2020-12-27 23:43:33 · 150 阅读 · 0 评论 -
第四章 分组
第四章 分组一、分组模式及其对象1 、分组的一般模式想要实现分组操作,必须明确三个元素:分组依据、数据来源、操作及返回结果,分组代码的一般模式即:df.groupby(分组依据)[数据来源].使用操作依据性别分组,统计全国人口寿命的平均值:df.groupby('Gender')['Longevity'].mean( )按照性别统计身高中位数:df = pd.read_csv('joyful-pandas/data/learn_pandas.csv')df.groupby('Gender'原创 2020-12-25 23:44:03 · 376 阅读 · 0 评论 -
第三章 索引
第三章 索引一、索引器1、表的列索引通过类似字典标记的方式或属性的方式,可以将DataFramed的列获取为一个Series。只取出一列 frame2['state'],列名中不包含空格时,可以直接用.loc取出:frame2.state取出多个列 则可以通过[列名组成的列表],得到一个DataFrame2、序列的行索引以字符串为索引的Series (也可以理解为必须给索引的值的显示索引)只取出单个索引 使用[item],得到该item对应的所有值取出多个索引 使用[item的列表]原创 2020-12-22 20:19:57 · 429 阅读 · 0 评论 -
Pandas基础
pandas 基础一、文件的读取和写入1、文件读取pandas将表格型数据读取为DataFrame,其中最常用的是read_csv,read_table,read_excel函数说明read_csv默认分隔符为逗号read_table默认分隔符为制表符read_excel读取xls或xlsx文件这些函数有一些常用的公共参数header=None: 表示第一列不作为列名,默认为Trueindex_col: 指定某一列或某几列为索引usecols:指定原创 2020-12-19 22:33:43 · 286 阅读 · 1 评论 -
Matplotlib介绍
Matplotlib介绍01 Matplotlib介绍一、介绍需要注意的是:pylab在ipython环境中才能做出图像,如果使用的是Jupyter,需要输入更多的命令。二、几个????生成一个简单的图Figure和Subplot最简单的创建figure以及axes的方式是通过`pyplot.subplots`命令,它可以创建一个figure,并返回一个含有已创建的subplot对象的Numpy数组。创建axes以后,可以使用`Axes.plot`绘制最简易的折线图。可以用`plt.figure`创建一个新原创 2020-12-14 23:58:49 · 1230 阅读 · 2 评论