数据分析和挖掘
Charles.zhang
朝闻道,夕死可矣。路漫漫其修远兮,吾将上下而求索。
展开
-
python itertools.product的用法
目前有一字符串s ="['a', 'b'],['c', 'd']",想把它分开成为两个列表:list1 = ['a', 'b']list2 = ['c', 'd']之后使用itertools.product()求笛卡尔积,应该写成:1 for i in itertools.product(list1, list2):2 print i结果为:('a', 'c')('a', 'd')('b', 'c')('b', 'd')然而使用eval(s)获得的是一个元组.转载 2020-10-12 18:05:14 · 8033 阅读 · 1 评论 -
python实现数据仓库ETL
通常讲的数据仓库ETL, 可以分为ETL和ELT两种实现方式. ELT是在加载到仓库后, 再做数据转换. ETL 是在加载之前完成转换, 落地的数据就是转换后的样子了.ELT多使用在MPP架构的数据仓库平台上, 比如Teradata, greenplum, 主要考虑点是, MPP数据仓库数据处理能力强, 在加载后再做转换, 可以充分利用这一优势. 另外, Extract和Load过程很简单, 且数据仓库厂商提供unloading/loading的命令行工具一般具有并行处理能力, 所以直接用这...转载 2020-06-01 12:23:34 · 6135 阅读 · 1 评论 -
Python数据分析与挖掘实战总结
第三章 数据探索3.1 数据质量分析3.1.1 缺失值分析缺失值的处理分为三种情况:删除存在缺失值的记录; 对可能的数据进行插值:拉格朗日插值,牛顿插值法:3.1.2 异常值分析首先可以先使用describe()函数查看数据的基本情况:import pandas as pd# 餐饮数据catering_sale = './data/catering_sale.xls'# 读取数据,指定日期列为索引列data = pd.read_excel(catering_sale,i转载 2020-05-08 18:54:16 · 2094 阅读 · 0 评论 -
一个完整推荐系统的设计实现
工业界完整推荐系统的设计。结论是:没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求。下文也对之前的一些博文进行梳理,构成一个完整工业界推荐系统所具有的方方面面(主要以百度关键词搜索推荐系统为例)完整的推荐系统肯定不会只用一种推荐算法在学术界, 一般说到推荐引擎, 我们都是围绕着某一种单独的算法的效果优化进行的, 例如按内容推荐, 协同过滤(包括item-bas...转载 2020-03-18 14:29:11 · 994 阅读 · 0 评论 -
推荐系统中相似度算法介绍及效果测试
######################尊重版权,转载注明地址######################相似度算法介绍相似度算法主要任务是衡量对象之间的相似程度,是信息检索、推荐系统、数据挖掘等的一个基础性计算。下面重点介绍几种比较常用的相似度算法。向量表示通常假设对象X和Y都具有N维的特征,即X=(x_1,x_2,…x_n)...转载 2020-03-06 16:58:47 · 1928 阅读 · 0 评论 -
pandas使用get_dummies进行one-hot编码
离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码import pandas as pddf = pd.DataFra...转载 2019-12-16 17:52:24 · 323 阅读 · 0 评论 -
生产经营中常用的预测算法
常见的预测算法有:1.简易平均法,包括几何平均法、算术平均法及加权平均法;2.移动平均法,包括简单移动平均法和加权移动平均法;3,指数平滑法,包括 一次指数平滑法和二次指数平滑法,三次指数平滑法;4,线性回归法,包括一元线性回归和二元线性回归,下面我一一的简单介绍一下各种方法。一,简易平均法是一种简便的时间序列法。是以一定观察期的数据求得平均数,并以所求平均数为基础,预测未来时期的...转载 2019-11-25 16:37:29 · 2520 阅读 · 0 评论 -
电商购买力模型:用大数据解锁智慧营销的新姿势
作者:十月菌全文共 2380 字 3 图,阅读需要 6 分钟———— / BEGIN / ————消费者购买力,顾名思义,就是消费者购买商品的能力。在一定时期内,能够反映他的消费水平和消费层级。购买力模型属于用户画像的一部分,是区分人群和定义用户身份的其中一项标签。了解消费者的购买力,能够更加精准的做会员营销方案,拉升网站的销售额。微信在前些阶段...转载 2019-09-25 10:07:41 · 583 阅读 · 0 评论 -
9个新零售用户画像中常用的用户模型
9个新零售用户画像中常用的用户模型(附模型文档)公众号:修炼大数据作者:某小编2018-06-04 09:04新零售已经不是什么新鲜的概念,传统企业和大的互联公司都纷纷改革创新或者走向融合。新零售的“新”就新在对人-货-场进行重构以后,可以获得丰富的数据,再借助数据分析进行人、货、场的更精准的对接,不断提升经营效率。传统电商对用户画像刻画的方法同样适用于新零售,包括用户价值模...转载 2019-09-25 10:21:47 · 4326 阅读 · 2 评论 -
细思极恐的“立体”用户画像,如何为“新零售”赋能?
通过信息化与大数据技术为零售行业插上科技的翅膀,改变传统的低效耗能的工作模式,这就是“新零售”概念自身的含义所在。“顾客就是上帝”,是一句大家所有人都耳熟能详的话语。这句话在二十年前,可能还是一句空话。因为商家少,买家多。卖方市场的局面必然会将用户体验的因素放在次要的位置。但如今随着市场竞争的不断加大以及各种资源的不断涌入,无论是在传统零售快消、连锁店,还是在目前移动互联网时代的互...转载 2019-09-25 11:32:27 · 1027 阅读 · 0 评论 -
大数据背后的360度用户画像,助力11.11新零售
双11已经成为全球所有的商业力量在科技、大数据驱动下的一个全球大协同。——阿里巴巴集团CEO张勇一年一度的双11又来了,购物狂欢已不再是线上商家的主战场,包括家电、家居、百货等多个门类的实体店、售后服务网点,将与各类线上购物平台实现对接,联手参与这场一年一度的促销狂欢。在这个全民狂欢的11月,我们来梳理梳理“新零售”时代的那些事。一、从双11看新零售双11将成为新零售的一次大阅兵。...转载 2019-09-25 11:35:26 · 885 阅读 · 0 评论 -
Python中用K-均值聚类来探索顾客细分
大数据杂谈一起行走数据江湖!本文由伯乐在线-高冷的精神污染翻译,toolate校稿。Greg。基于 Python 的顾客细分在这篇文章中,我要谈的东西是相对简单,但却是对任何业务都很重要的:客户细分。客户细分的核心是能够识别不同类型的客户,然后知道如何找到更多这样的人,这样你就可以…你猜对了,获得更多的客户!在这篇文章中,我将详细介绍您如何...转载 2019-09-25 17:46:30 · 476 阅读 · 0 评论 -
推荐算法概述(基于用户的协同过滤算法、基于物品的协同过滤算法、基于内容的推荐算法)
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”目前推荐系统研宄的主要趋势是从单一的、独立的推荐系统算法逐渐向组合多种推荐算法形成混合式的综合推荐算法方向发展,越来越多的结合用户标签数据、社交网络数据、上下文信息、地理位置信息。群体推荐也成为一个目前非常热门的...转载 2019-10-08 10:18:20 · 2655 阅读 · 0 评论 -
统计模块:Python3.7的statistics模块
统计模块statistics作者:Shawnpython3.7https://docs.python.org/3/library/statistics.html统计模块statistics方法介绍statistics.mean(data)statistics.harmonic_mean(data)statistics.median(data)statistics.median_lo...转载 2019-09-17 14:13:48 · 387 阅读 · 0 评论 -
Matplotlib可视化(2)设置pyplot的rcParams, 可以显示中文
pylot使用rc配置文件来自定义图形的各种默认属性,称之为rc配置或rc参数。通过rc参数可以修改默认的属性,包括窗体大小、每英寸的点数、线条宽度、颜色、样式、坐标轴、坐标和网络属性、文本、字体等。rc参数存储在字典变量中,通过字典的方式进行访问,如下代码:import numpy as npimport matplotlib.pyplot as plt#生成数据x = np...转载 2019-08-27 18:50:24 · 1946 阅读 · 0 评论 -
数据挖掘中基本概念--数据类型的属性与度量
当我们在学习数据挖掘算法或者机器学习算法时,我们都会发现某些算法只能应用于特定的数据类型,所以在学习数据挖掘算法或者机器学习算法前我们需要对数据类型的属性度量有一个很清晰的了解,如果在数据类型这一步就出现问题,不管算法再怎么优异肯定也是白搭!!2.1.1 属性与度量本节我们考虑使用何种类型的属性描述数据对象,来处理描述数据的问题。我们首先定义属性,然后考虑属性类型的含义,最后介绍经常遇到的属...转载 2018-10-08 16:49:16 · 2688 阅读 · 0 评论 -
数据分析之交叉分析
什么是交叉分析?交叉分析法又称立体分析法,是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法。这种方法虽然复杂,但它弥补了“各自为政”分析方法所带来的偏差。通常用于分析两个变量之间的关系,例如各个报纸阅读和年龄之间的关系。实际使用中我们通常把这个概念推广到行变量和列变量之间的关系,这样行变量可能有多个变量组成,列变量也可能有多个变量,甚至可以只...转载 2018-11-07 15:37:27 · 30884 阅读 · 1 评论 -
基于Python的ADF单位根检验方法——时间序列平稳检验
ADF检验总结一句话:如果序列是平稳的,则不存在单位根, 否则就会存在单位根。同时,源数据不平稳(大多肉眼可见),可以做一阶差分、二阶差分这样子,看是否差分后平稳。ADF检验的原假设是存在单位根,因此如果得到的统计量显著小于3个置信度(1%,5%,10%)的临界统计值时,说明是拒绝原假设的。另外是看P-value是否非常接近0(4为小数基本即可。) 下面的内容是乾坤大挪移过来的,《...转载 2018-11-19 16:21:25 · 16395 阅读 · 1 评论 -
让模型为你做销量预测【关于电商库存深度补单的思考】
第一次发文章,因为公司的一些需要,最近在研究关于如何科学的补单和解决库存深度的问题,在结合自己几年电商的所见所闻以及自己的思考,觉得所思所想还是有一定的参考意义,所以就发上来和大家分享一下 在几年的电商工作中,发现只要是做电商的,除非你是做分销,做淘客帮别人卖货,凡事自己经营店铺的无论规模是大是小,一定规避不了补单这个问题,而补多少,这就是一门学问了,以下是我自己对补单的一些想法,没有绝...转载 2018-11-20 10:44:59 · 17837 阅读 · 5 评论 -
pandas的排序和排名
有的时候我们可以要根据索引的大小或者值的大小对Series和DataFrame进行排名和排序。一、排序pandas提供了sort_index方法可以根据行或列的索引按照字典的顺序进行排序a、Series排序1、按索引进行排序 #定义一个Series s = Series([1,2,3],index=["a","c","b"]) #对Series的索引进行排序,...转载 2018-11-29 11:44:53 · 1405 阅读 · 0 评论 -
pandas将日期转换成timestamp
OUTLINE常见的时间字符串与timestamp之间的转换日期与timestamp之间的转换常见的时间字符串与timestamp之间的转换这里说的字符串不是一般意义上的字符串,是指在读取日期类型的数据时,如果还没有及时解析字符串,它就还不是日期类型,那么此时的字符串该怎么与时间戳之间进行转换呢?① 时间字符串转化成时间戳 将时间字符串转化成时间戳分为两步: 第一步:将时间字符串转...转载 2018-11-29 11:46:05 · 1922 阅读 · 0 评论 -
Python中的groupby分组
OUTLINE根据表本身的某一列或多列内容进行分组聚合通过字典或者Series进行分组根据表本身的某一列或多列内容进行分组聚合这个是groupby的最常见操作,根据某一列的内容分为不同的维度进行拆解,将同一维度的再进行聚合按一列进行聚合import pandas as pdimport numpy as npdf = pd.DataFrame({'key1':list('aabb...转载 2018-11-29 11:47:19 · 1295 阅读 · 0 评论 -
Pandas详解二十二之离散化(分组、区间化)
约定import pandas as pd离散化通常对于我们不想要连续的数值,我们可将其离散化,离散化也可称为分组、区间化。Pandas为我们提供了方便的函数cut():pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)参数解释:x:需要离散化的...转载 2019-03-08 18:12:22 · 1984 阅读 · 0 评论 -
数据分析|销量预测模型
一、什么是预测通过研究过去、了解现在、预测未来。二、为什么做预测销量的多少会直接影响整个公司的运作,通过预计提前做出合理安排。三、预测的基本依据满足什么条件才可以做预测四、常用预测的方法我们主要来看下定量预测,因为最好还是数据说话。4.1时间序列方法(解释:对未来影响不同,权重也不同,离的近的权重大,离的远的权重小)(解释:这时候预测12月的...转载 2019-06-25 14:13:29 · 31407 阅读 · 1 评论 -
pandas 将“字符类型的日期列”转化成“时间戳索引(DatetimeIndex)”
假设目前已经引入了 pandas,同时也拥有 pandas 的 DataFrame 类型数据。import pandas as pd数据集如下df.head(3) date open close high low volume code0 2006-12-18 3.905 3.886 3.943 ...转载 2019-07-11 10:48:24 · 10095 阅读 · 0 评论 -
使用sklearn报错ValueError: Expected 2D array, got 1D array instead
在对模型进行预测时,如使用sklearn中的KNN模型,import numpy as np from sklearn.neighbors import KNeighborsClassifierknn = KNeighborsClassifier() knn.fit(x,y) x_new = [50000,8,1.2]y_pred = knn.p...转载 2019-07-11 11:17:42 · 1062 阅读 · 0 评论 -
【Python】matplotlib(散点图)添加趋势线
【参考】1.如何在python matplotlib点(散点图)中添加趋势线?2.np.polyfit()与np.poly1d()将点拟合成曲线【补充】import matplotlib as mplimport matplotlib.pyplot as pltdef plot_trendline(x, y, n): mpl.pylab.plot(x, y...转载 2019-07-11 11:46:51 · 6374 阅读 · 0 评论 -
数据挖掘标准流程CRISP-DM
1、首先说一下KDD模型的概念 知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。 这里不得不提一下数据挖掘的概念,数据挖掘(英语:Data mining),又译为资料探勘、数据采...原创 2018-10-03 17:45:02 · 21130 阅读 · 0 评论