2020年04月_猫小咪编程

原创 Python时间序列--ARIMA模型参数选择（六）

ARIMA模型参数选择流程import pandas as pdimport numpy as np# TSA from Statsmodelsimport statsmodels.api as smimport statsmodels.formula.api as smfimport statsmodels.tsa.api as smt# Display and Plottin...

2020-04-29 12:27:29 7651 9

原创 Python时间序列--ARIMA模型参数选择（五）

自回归模型(AR)自回归模型的限制移动平均模型（MA）ARIMA(p，d，q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)AR是自回归， p为自回归项； MA为移动平均q为移动平均项数，d为时间序列成为平稳时所做的差分次数原理：将非平稳时间序列转化为平稳时间序列然后将因变量仅对它...

2020-04-29 11:16:18 9363 3

原创 Python时间序列--数据平稳（四）

1.平稳性来自于扯扯金融平稳性是用来描述时间序列数据统计性态的特有术语。2.时间序列平稳性的理解凭以推测经济系统（或其相关变量）在未来可能出现的状况，亦即预测经济系统（或其相关变量）的走势，是我们建立经济计量模型的主要目的。而基于随机变量的历史和现状来推测其未来，则是我们实施经济计量和预测的基本思路。这就需要假设随机变量的历史和现状具有代表性或可延续性。换句话说，随机变量的基本特性必须能在...

2020-04-27 15:09:06 2387 1

滑动窗口滑动窗口就是能够根据指定的单位长度来框住时间序列，从而计算框内的统计指标。相当于一个长度指定的滑块正在刻度尺上面滑动，每滑动一个单位即可反馈滑块内的数据。滑动窗口的意义为了提升数据的准确性，将某个点的取值扩大到包含这个点的一段区间，用区间来进行判断，这个区间就是窗口。例如想使用2020年1月1日的一个数据，单取这个时间点的数据当然是可行的，但是太过绝对，有没有更好的办法呢？可以选取2...

2020-04-27 14:25:24 9857 2

原创 Python时间序列--数据重采样（二）

数据重采样重采样分为上（升）采样和下采样，下（降）采样时需要对信号进行抽取，上采样时需要对信号进行插值时间数据由一个频率转换到另一个频率降采样升采样import pandas as pdimport numpy as nprng = pd.date_range('1/1/2020', periods=90, freq='D')ts = pd.Series(np.random....

2020-04-27 13:59:03 2735

原创 Python时间序列--时间段（一）

时间序列时间戳（timestamp）固定周期（period）时间间隔（interval）import pandas as pdimport numpy as npdate_range可以指定开始时间与周期H：小时D：天M：月Y:年# TIMES #2020 Apr 27 4/27/2020 27/4/2020 2020-4-27 2020/04/27rng = ...

2020-04-27 13:41:50 2004

原创 mysql--分支/循环

流程控制结构顺序、分支、循环一、分支结构1.if函数语法：if(条件,值1，值2)功能：实现双分支应用在begin end中或外面2.case结构语法：情况1：类似于switchcase 变量或表达式when 值1 then 语句1;when 值2 then 语句2;...else 语句n;end 情况2：case when 条件1 then 语句1...

2020-04-23 16:08:34 475 1

原创 mysql--函数

函数含义：一组预先编译好的SQL语句的集合，理解成批处理语句1、提高代码的重用性2、简化操作3、减少了编译次数并且减少了和数据库服务器的连接次数，提高了效率区别：存储过程：可以有0个返回，也可以有多个返回，适合做批量插入、批量更新函数：有且仅有1 个返回，适合做处理数据后返回一个结果一、创建语法*/CREATE FUNCTION 函数名(参数列表) RETURNS 返回类...

2020-04-23 10:46:30 986

原创 NLTK健康领域英文文本分词、词性标注、词频统计

import reimport numpy as npimport pandas as pdimport nltk.tokenize as tkimport nltk.corpus as nchandel_file = 'health_handel.csv' #分词好要保存的数据文件路径#读取数据data=pd.read_excel('health.xlsx')print(dat...

2020-04-21 23:41:29 1126 5

转载电影推荐-基于用户的协同过滤推荐

推荐引擎推荐引擎意在把最需要的推荐给用户。在不同的机器学习场景中通常需要分析相似样本。而统计相似样本的方式可以基于欧氏距离分数，也可基于皮氏距离分数。欧氏距离分数欧氏距离分数=11+欧氏距离欧氏距离分数 = \frac{1}{1+欧氏距离}欧氏距离分数=1+欧氏距离1计算所得欧氏距离分数区间处于：[0, 1]，越趋于0样本间的欧氏距离越远，样本越不相似；越趋于1，样本间的欧氏距离越...

2020-04-21 16:08:26 671

转载利用python进行数据清洗

在做数据分析之前，我们首先要明确数据分析的目标，然后应用数据分析的思维，对目标进行细分，再采取相应的行动。我们可以把数据分析细分为以下 8 个步骤：（1）读取（2）清洗（3）操作（4）转换（5）整理（6）分析（7）展现（8）报告下面我们用一副待清洗的扑克牌作为示例，假设它保存在代码文件相同的目录下，在 Jupyter Lab 环境中运行以下代码：import numpy as...

2020-04-21 15:50:14 9278 1

转载机器学习特征工程总结

1.什么是特征工程有这么一句话在业界广泛流传，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征工程主要分为三部分：1.数据预处理对应的sklearn包：sklearn-Processing data2.特征选择对应的sklearn包： sklearn-F...

2020-04-19 15:41:02 1747 2

原创豆瓣电影数据抓取案例

目标1、地址: 豆瓣电影 - 排行榜 - 剧情2、目标: 电影名称、电影评分F12抓包（XHR）1、Request URL(基准URL地址) ：https://movie.douban.com/j/chart/top_list?2、Query String(查询参数)# 抓取的查询参数如下：type: 13 # 电影类型interval_id: 100:90action...

2020-04-19 13:55:07 1859

原创民政部网站数据抓取

目标1、URL: http://www.mca.gov.cn/ - 民政数据 - 行政区划代码即: http://www.mca.gov.cn/article/sj/xzqh/2019/2、目标: 抓取最新中华人民共和国县以上行政区划代码实现步骤1、从民政数据网站中提取最新行政区划代码链接# 特点1、最新的在上面2、命名格式: 2019年X月中华人民共和国县以上行政区划...

2020-04-19 13:53:41 877

原创链家二手房案例（xpath）

基于User-Agent反爬1、发送请求携带请求头: headers={'User-Agent' : 'Mozilla/5.0 xxxxxx'}2、多个请求随机切换User-Agent 1、定义列表存放大量User-Agent，使用random.choice()每次随机选择 2、定义py文件存放大量User-Agent，使用random.choice()每次随机选择 3、使用...

2020-04-14 16:47:13 411

原创电影天堂二级页面抓取案例

# 地址电影天堂 - 2019年新片精品 - 更多# 目标电影名称、下载链接# 分析*********一级页面需抓取*********** 1、电影详情页链接 *********二级页面需抓取*********** 1、电影名称 2、电影下载链接实现步骤1、确定响应内容中是否存在所需抓取数据2、找URL规律第1...

2020-04-09 22:30:17 20592

原创猫眼电影top100抓取案例

猫眼电影 - 榜单 - top100榜电影名称、主演、上映时间数据抓取实现1、确定响应内容中是否存在所需数据右键 - 查看网页源代码 - 搜索关键字 - 存在！！2、找URL规律第1页：https://maoyan.com/board/4?offset=0第2页：https://maoyan.com/board/4?offset=10第n页：offset=(n-1)*10...

2020-04-09 22:29:11 1299

转载 SQL经典笔试来了

01 建表语句create table Student(sid varchar(10),sname varchar(10),sage datetime,ssex nvarchar(10));insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert into Student values('02' , '钱电' , ...

2020-04-07 20:26:15 211

转载机器学习中用什么评价分类结果？

我们在机器学习中如何评价一个算法的好坏呢？对于一个回归问题，可以使用MSE、RMSE、MAE、R方。对于一个分类问题，可以使用分类精准度。但是实际上，分类精准度是存在陷阱的，有时候我们会需要更加全面的信息。1.1 分类准确度够用么？分类准确度在评价分类算法时，会有很大的问题的。分类算法的评价要比回归算法多很多。对于一个癌症预测系统，输入检查指标，判断是否患有癌症，预测准确度99.9%。这个系...

2020-04-06 23:24:42 1055

原创百度飞浆paddlepaddle之中文文本分类（三）

新闻分类数据集来自于新闻网站的56821条新闻标题分类10个类别：国际、文化、娱乐、体育、财经、汽车、教育、科技、房产、证券

2020-04-06 11:32:34 1755 1

转载 10个常用的数据分析商业模型之杜邦分析模型&平衡计分卡（十）

企业在对经营情况进行分析时，大多主要利用财务报表数字通过财务指标计算反映其盈利能力、营运能力、财务风险、股东回报水平等，其中最有代表性的应属杜邦分析模型。杜邦分析模型，是通过对净资产收益率的分解，从销售净利率、资产周转率、权益乘数等三方面考察对股东回报的影响，而这三方面又涵盖了采购管理、成本费用控制、资产营运水平、财务杠杆的税盾效应等更深入的因素，从而由表及里、由外而内、由果至因地体现了历时财务...

2020-04-04 21:49:15 1749

转载 10个常用的数据分析商业模型之用户行为决策分析模型（九）

即消费者行为模型。原来一直倡导的AIDMA模式，即——引起消费者注意——产生兴趣——激发欲望——强化记忆——促使行动。现在随着互联网的兴起，消费者在商品的选择上已不限于实体，更多的是电商的形式。甚至商品也不一定是实体的，也有虚拟的、知识类的产品。因此从过去的AIDMA模式做进一步的延伸，慢慢演变出AISAS模式，即引起消费者注意——产生兴趣——网络搜索——购买行动——分享。很明显的区别是，购买的路...

2020-04-04 21:46:13 3340

转载 10个常用的数据分析商业模型之产品ABC分类模型（八）

ABC分类模型又称帕累托分析法，主要用于分清产品对象的主次，分为A，B，C三类。一般地，会用在产品分类上，去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额，那么哪些SKU是重要的呢，这就是在业务运营中分清主次的问题。常见的做法是将产品SKU作为维度，并将对应的销售额作为基础度量指标，将这些销售额指标从大到小排列，并计算截止当前产品SKU的销售额累计合计占总销售额...

2020-04-04 21:44:51 3857

转载 10个常用的数据分析商业模型之基于用户生命周期的分析体系（七）

用户生命周期衍生于“客户生命周期”的概念。用户从不同角度有不同的分类法：比如从用户活跃度来看，可以分为僵尸用户、低频用户、活跃用户和深度用户从用户对平台的价值来看，可能方法就变成了种子用户、普通用户、核心用户。从用户价值来看，分为无效用户、潜在用户、跟进用户、成单用户。不同的行业有不同的分类，不同的分类也有不同的运营策略。而从用户生命周期的角度来解析和管理用户，是常见的数据分析方式之一。...

2020-04-04 21:42:50 1841

转载 10个常用的数据分析商业模型之漏斗模型（六）

营销漏斗模型常用于营销过程。是将非潜在客户逐步变为客户的转化量化模型。营销漏斗模型的价值在于量化了营销过程各个环节的效率，帮助找到薄弱环节。也就是说营销的环节指的是从获取用户到最终转化成购买这整个流程中的一个个子环节，相邻环节的转化率则就是指用数据指标来量化每一个步骤的表现。所以整个漏斗模型就是先将整个购买流程拆分成一个个步骤，然后用转化率来衡量每一个步骤的表现，最后通过异常的数据指标找出有问题...

2020-04-04 21:40:22 2900

转载 10个常用的数据分析商业模型之AARRR模型（五）

AARRR是增长黑客的经典模型，也叫用户增长模型。五个字母分别代表分别是获取、激活、留存、变现以及推荐。模型的提出者认为，所有创新型、成长型的企业都应该按照这个模型来做增长。这个模型将数据分析分成了五个大的模块，我们依据这个模型，把每一个模块划分出更细分的维度，罗列出影响每一个维度的变量指标，而这些指标就是我们做数据分析的基础指标。...

2020-04-04 21:37:18 2324

原创百度飞浆paddlepaddle之波士顿房价预测（二）

个

2020-04-03 17:23:34 1315

原创百度飞浆paddlepaddle之简单线性回归（一）

吗

2020-04-03 09:46:42 780

原创 Mysql数据库系列（四）

外键原理让当前表字段的值在另一张表的范围内去选择使用规则1、数据类型要一致2、主表被参考字段必须为KEY的一种 : PRI级联动作1、cascade : 删除更新同步(被参考字段)2、restrict(默认) : 不让主表删除更新3、set null : 删除更新,从表该字段值设置为NULL嵌套查询（子查询）定义把内层的查询结果作为外层查询的条件多表查询笛...

2020-04-02 10:49:52 244

原创 Mysql数据库系列（三）

SQL查询总结 3、select ...聚合函数 from 表名 1、where ... 2、group by ... 4、having ... 5、order by ... 6、limit ...;聚合函数（铁三角之一）avg(…) sum(…) max(…) min(…)count(字段名) # 空值NULL不会被统计gro...

2020-04-02 10:41:22 316

转载 10个常用的数据分析商业模型之ROS/RMS矩阵（四）

ROS/RMS（Return Of Sales/Relative Market Share）矩阵也称做销售回报和相对市场份额矩阵，主要是用来分析企业的不同业务单元或产品的发展战略。这个模型认为，企业某个业务单元或产品在市场上的销售额应该与其在市场中的相对份额成正比，并且该业务单元或产品的销售额越高，该业务单元或产品为企业所提供的销售回报就应该越高。如下图，企业的某种业务单元或产品的销售额在由低向...

2020-04-02 10:35:02 1290

转载 10个常用的数据分析商业模型之价值链分析模型（三）

价值链模型最早是由波特提出的。波特认为企业的竞争优势来源于企业在设计、生产、营销、交货等过程及辅助过程中所进行的许多相互分离的活动，设计任何产业内竞争的各种基本活动有五种类型：内部后勤：与接收、存储和分配相关联的各种活动，如原材料搬运、仓储、库存控制、车辆调度和向供应商退货。生产作业：与将投入转化为最终产品形式相关的各种活动，如机械加工、包装、组装、设备维护、检测等。外部后勤：与集中、存储...

2020-04-02 10:33:51 4072

jaffe507的博客