自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 建立数据挖掘的用户画像

基于用户的画像前言根据用户历史信息与用户的人口属性标签(包括性别、年龄、学历)通过机器学习、数据挖掘技术建立模型预测用户标签,制定用户的画像,便于前期调研,需求分析,后期营销等,故为用户制定相应的画像是一项非常有意义的工作导入先关库import datetimeimport pandas as pdimport numpy as npimport pyechartsimport ...

2019-09-08 09:12:27 1204 1

原创 pandas 降低数据内存

数据太大,用以下方法降低内存,帮到你了,记得加个鸡腿关注def reduce_mem_usage(df, verbose=True):numerics = [‘int16’, ‘int32’, ‘int64’, ‘float16’, ‘float32’, ‘float64’]start_mem = df.memory_usage().sum() / 10242for col in df.c...

2019-08-24 22:43:21 201

原创 10家不同商店50种不同商品销售量预测数据

预测10家商店未来三个月50种商品的销售量一.前言目前拥有10家店50种商品过去5年内的销售量,尝试通过建立ARIMAL,回归,GBDT模型来预测未来一年的销量时间序列提供了预测未来价值的机会。 基于以前的价值观,可以使用时间序列来预测经济,天气和能力规划的趋势。 时间序列数据的具体属性意味着通常需要专门的统计方法。数据分析前提几个问题50种商品在过去5年的销售量表现状况如何?10家...

2019-08-19 20:23:19 3857 2

原创 信用卡评分模型构建数据

信用卡评分模型构建背景描述目前拥有用户年龄,信用卡和个人信贷额度的总余额,过去2年借款人逾期,预测借款人是否会预期次数,月收入,负债比率,家属等信息,通过这些信息建立风控,信用评分模型,预测预测借款人是否会预期。一.导入数据和库导入相应库import datetimeimport pandas as pdimport numpy as npimport osimport seab...

2019-07-28 10:27:23 1260 2

原创 「二分类算法」提供银行精准营销解决方案

银行精准营销解决方案营销活动以电话为基础,一般,银行的客服人员需要联系客户至少一次。数据集中包含有客户年龄,职业婚姻,教育水平等信息,通过这些信息建模,预测客户是否将认购该银行的产品一.数据和库的导入import datetimeimport pandas as pdimport numpy as npimport osimport seaborn as snsimport re...

2019-07-28 10:26:51 1705

原创 电商女装评论数据集分析

探索女性服装电子商务数据集背景描述这是一个女性服装电子商务数据集,围绕客户的评论撰写。数据具有9个特征,可以从多个维度解析文本。由于是真实的商业数据,所以做了匿名处理,评论文本和正文中对该公司的引用被替换为“零售商”。一.探索前,问题准备购买服装的客户各年龄所占比例是多少?各年龄段的产品销量分布情况?产品评分和评论最好的产品是?产品的推荐率分布情况?二.数据导入,观察# I...

2019-07-13 12:09:32 4952 2

原创 爬取链家网上海二手房数据,并进行分析建模

一.分析网页结构并编写程序import requestsimport csvimport timeimport mathimport randomfrom lxml import etreefrom multiprocessing.dummy import Pooldef getPage(url): time.sleep(random.choice([2, 2.5, 3,...

2019-07-10 10:38:46 5558 2

原创 网站数据用户行为分析 ---- A/B测试

分析A/B测试结果目录简介I - 概率II - A/B 测试III - 回归简介为了得出电子商务网站运行的 A/B 测试的结果,帮助公司弄清楚是否应该使用新的页面,保留旧的页面,或者应该将测试时间延长,之后再做出决定。I - 概率import pandas as pdimport numpy as npimport randomimport matplotlib.p...

2019-07-08 22:45:33 654

原创 深度学习

深度学习深度学习是以抽象的网络对数据特征的学习,及神经网络算法。神经网络的算法主要包含:数据输入,激活神经,正向传播,数据输出,反向传播。1.数据输入常见的激活函数有 sigmoid,tanh 和 softmax。线性函数 Python 代码如下:input = np.dot(x, weights_input)output = sigmoid(input) # sigmoid函数为激...

2019-02-17 19:51:23 88

原创 客户细分数据分析

创建用户分类这个项目的数据集能够在UCI机器学习信息库中找到.因为这个项目的目的,分析将不会包括 ‘Channel’ 和 ‘Region’ 这两个特征——重点集中在6个记录的客户购买的产品类别上。# 检查你的Python版本from sys import version_infoif version_info.major != 3: raise Exception('请使用Pyth...

2019-02-17 19:48:27 4472 1

原创 电影数据探索分析

探索电影数据集在这个项目中,你将尝试使用所学的知识,使用 NumPy、Pandas、matplotlib、seaborn 库中的函数,来对电影数据集进行探索。下载数据集:TMDb电影数据数据集各列名称的含义:列名称idimdb_idpopularitybudgetrevenueoriginal_titlecasthomepagedirectortaglinekeywordsovervi...

2019-02-17 19:42:41 3274

原创 机器学习是什么?(元芳你怎么看)

机器学习是什么?机器学习 = 机器 + 学习机器即非生物的物体。学习 = 数据 + 算法 即机器用数学(微积分, 统计学, 线性代数)的方法对大量数据进行计算,分析,总结。机器学习有包括哪些?监督学习, 非监督学习, 强化学习监督学习: 机器对有标签的数据进行分析学习, 每一步分析过程都会收到反馈。非监督学习: 机器对无标签的数据进行分析学习, 始终没收到反馈。强化学习...

2018-12-31 20:14:22 105

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除