python 关联规则算法 apriori实现

#-*- coding: utf-8 -*- from __future__ import print_function import pandas as pd #自定义连接函数,用于实现L_{k-1}到C_k的连接 def connect_string(x, ms): x = list(...

2018-08-03 20:23:21

阅读数 122

评论数 0

聚类检测异常点

主要思想: 用聚类方式划分数据为不同的簇,计算簇内每个点对于簇中心的相对距离(相对距离 = 点到簇中心的距离/这个簇所有点到簇中心距离的中位数),可视化后,检测出相对距离较大的点。 注意是每个点到簇中心的距离的中位数,不是平均值,因为异常值对中位数的影响很小,几乎可以忽略,但是对均值的影响很大...

2018-07-31 18:40:18

阅读数 696

评论数 0

python时间序列(ARIMA)分析步骤

data = pd.read_excel(r'C:\Users\Administrator\Desktop\arima_data.xls',index_col = '日期') data.plot() 单调递增的,不平稳 单位根检验下 from statsmodels.tsa.sta...

2018-07-31 15:57:37

阅读数 812

评论数 1

tsne降维可视化

import matplotlib.pyplot as plt from sklearn.manifold import TSNE tsne = TSNE() tsne.fit_transform(data_scale) tsne = pd.DataFrame(tsne.embedding_...

2018-07-31 14:10:22

阅读数 425

评论数 0

《数据挖掘导论》混淆矩阵

发现有很多资料对混线矩阵以及recall、precision的定义不一致,经过比较发现《数据挖掘导论》对其定义比较的正确   混淆矩阵   预测值 + - 真实值 + TP FN - FP TN 所谓的TN,TP都是针对预测值阐述的,...

2018-07-30 20:04:35

阅读数 96

评论数 0

keras做分类

data = pd.read_excel(r'C:\Users\Administrator\Desktop\sales_data.xls',index_col = '序号') data['天气']= data['天气'].map({'坏':0,'好':1}) data['是否周末'] = da...

2018-07-30 19:18:19

阅读数 109

评论数 0

sklearn的pca降维

data = pd.read_excel(r'C:\Users\Administrator\Desktop\principal_component.xls',header = None) from sklearn.decomposition import PCA pca = PCA()#默认不...

2018-07-30 16:43:09

阅读数 48

评论数 0

python浅复制与深复制

浅复制: 1、‘=’浅复制 b = a 改变b的值,a也会发生相同的变化 import copy 2、copy.copy()浅复制或a.copy() b = copy.copy(a) b = a.copy() 如果a 的形式如[1,2,3,4,[5,6]] 改变b的1,2,3的值...

2018-07-30 15:16:30

阅读数 35

评论数 0

牛顿插值法和拉格朗日插值法

1、牛顿插值法 转载于https://blog.csdn.net/deramer1/article/details/79037740   x = [0,1,2,3,5,6]#输入已知的x值 y = [0,1,4,9,25,36]#输入已知的y值 def five_order_diff...

2018-07-30 14:13:17

阅读数 117

评论数 0

中国近三年疫苗分布情况词云分析

数据来自github from os import path import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator text = '...

2018-07-27 21:21:55

阅读数 102

评论数 0

简单实现knn

from numpy import * def createdataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ["a","a&...

2018-07-26 19:59:02

阅读数 30

评论数 0

tensorflow入门

一元线性回归 import tensorflow as tf import numpy as np learning_rate = 0.02#学习率 training_epochs = 100#跌打次数 train_X = np.array([3.3,4.4,5.5,6.71,6.93,4...

2018-07-26 18:06:12

阅读数 61

评论数 0

第六章(酸奶饮料新产品口味测试案例研究)

分析目的 在10中种样品中,最受欢迎的是哪几种 消费者的口味在不同城市有什么不同 分析城市和品牌是否存在交互作用   交叉表   不同因素下均值描述 步骤:分析——比较均值——均值 条图显示不同品牌的口味评分均值(带误差线)   不同品牌评分分析 避免城市因素的干...

2018-07-19 22:40:15

阅读数 1118

评论数 0

机器学习与双重差分(DID)

https://mp.weixin.qq.com/s/iHX7JWqigVvSslP5FijBJg

2018-07-19 16:19:49

阅读数 433

评论数 0

学院两大佬关于大数据的争论

何大安:大数据会改变人的认知 https://mp.weixin.qq.com/s/ldK2x31H5w8YD7F-sQBDcw 朱海就:这是理性的狂妄 https://mp.weixin.qq.com/s/LPLTcAo_jcRFtIZRGsWJGg

2018-07-19 15:10:24

阅读数 104

评论数 0

第五章(药物选择决策支持分析)

一、连接数据库 安装了mysql之后自动安装了ODBC,在开始菜单下搜索“ODBC”即可,打开ODBC,在用户DCN中设置需要连接的数据库即可。 1、选择消费金额前10的顾客 根据订单表、订单明细表、客户表写类似sql的语句,根据订单id汇总总金额,根据总金额降序选择前10条,根据订单id合...

2018-07-17 19:10:39

阅读数 55

评论数 0

第三、四章(顾客满意度分析)

第三章 顾客满意度分析 问卷形式 问卷内容 变量:年龄、性别、推荐度、购物频次、交通方式。 需求: 受访者的性别、年龄分布 推荐度频数及均数 受访者的购物频次分布和均数 受访者使用的交通工具 一、数据准备 1、对年龄数值进行重编码(根据需求1需要计算年龄的均数) 将年龄...

2018-07-16 19:50:47

阅读数 104

评论数 0

第一、二章(统计检验模型)

一、数据挖掘方法论 CRISP-DM方法论 1、商业理解;数据理解;数据准备;建立模型;模型评估;结果部署 商业理解:确定商业目标、确定数据挖掘目标; 数据理解:数据初步采集、数据描述、数据探索性分析; 数据准备:数据清洗、数据构建(衍生变量)、整合数据; 建立模型:选择建模技术、生成...

2018-07-16 00:14:28

阅读数 197

评论数 0

今天立个flag

准备把《IBM SPSS数据分析与挖掘实战案例精粹》复习一下,顺便用python代替spss modeler实现数据梳理和算法,一来巩固下统计学知识,二来加强下coding能力!!!学校镇楼!!!...

2018-07-15 18:34:12

阅读数 493

评论数 0

预测泰坦尼克获救人数

kaggle上的一个经典的比赛,试试手,权当了解比赛的过程和了解sklearn的建模过程导库import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.style.use('ggplot')读取数据train...

2018-04-18 21:56:24

阅读数 270

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭