data_dog-CSDN博客

转载 python 关联规则算法 apriori实现

#-*- coding: utf-8 -*-from __future__ import print_functionimport pandas as pd#自定义连接函数，用于实现L_{k-1}到C_k的连接def connect_string(x, ms): x = list(map(lambda i:sorted(i.split(ms)), x)) l = len(x[0...

2018-08-03 20:23:21 855

原创聚类检测异常点

主要思想：用聚类方式划分数据为不同的簇，计算簇内每个点对于簇中心的相对距离（相对距离 = 点到簇中心的距离/这个簇所有点到簇中心距离的中位数），可视化后，检测出相对距离较大的点。注意是每个点到簇中心的距离的中位数，不是平均值，因为异常值对中位数的影响很小，几乎可以忽略，但是对均值的影响很大。 from sklearn import preprocessingfrom sklea...

2018-07-31 18:40:18 8564 3

原创 python时间序列（ARIMA）分析步骤

data = pd.read_excel(r'C:\Users\Administrator\Desktop\arima_data.xls',index_col = '日期')data.plot()单调递增的，不平稳单位根检验下from statsmodels.tsa.stattools import adfuller as ADFADF(data['销量'])&gt...

2018-07-31 15:57:37 12981 8

原创 tsne降维可视化

import matplotlib.pyplot as pltfrom sklearn.manifold import TSNEtsne = TSNE()tsne.fit_transform(data_scale)tsne = pd.DataFrame(tsne.embedding_,index = data_scale.index)#tsne.embedding_即降维后的二维数据...

2018-07-31 14:10:22 4174

原创《数据挖掘导论》混淆矩阵

发现有很多资料对混线矩阵以及recall、precision的定义不一致，经过比较发现《数据挖掘导论》对其定义比较的正确混淆矩阵预测值 + - 真实值 + TP FN - FP TN 所谓的TN，TP都是针对预测值阐述的，例如预测值为‘-’，对应的为‘N’，至于是TN还是FN根据真实值的情况判断，真实值也为‘-’，则TN，...

2018-07-30 20:04:35 1018

原创 keras做分类

data = pd.read_excel(r'C:\Users\Administrator\Desktop\sales_data.xls',index_col = '序号')data['天气']= data['天气'].map({'坏':0,'好':1})data['是否周末'] = data['是否周末'].map({'是':1,'否':0})data['是否有促销'] = data[...

2018-07-30 19:18:19 506 2

原创 sklearn的pca降维

data = pd.read_excel(r'C:\Users\Administrator\Desktop\principal_component.xls',header = None)from sklearn.decomposition import PCApca = PCA()#默认不输入n_components时，n_components=min(样本数，特征数)pca.fit(d...

2018-07-30 16:43:09 293

原创 python浅复制与深复制

浅复制：1、‘=’浅复制b = a改变b的值，a也会发生相同的变化import copy2、copy.copy()浅复制或a.copy()b = copy.copy(a)b = a.copy()如果a 的形式如[1,2,3,4,[5,6]]改变b的1,2,3的值，不会影响a的值，但是改变[5,6]的值，就是相应的改变a内[5,6]的值。深复制b = co...

2018-07-30 15:16:30 200

原创牛顿插值法和拉格朗日插值法

1、牛顿插值法转载于https://blog.csdn.net/deramer1/article/details/79037740 x = [0,1,2,3,5,6]#输入已知的x值y = [0,1,4,9,25,36]#输入已知的y值def five_order_difference_quotient(x, y): # i记录计算差商的次数，这里循环5次，计算5次...

2018-07-30 14:13:17 1694

原创中国近三年疫苗分布情况词云分析

数据来自githubfrom os import pathimport jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,STOPWORDS,ImageColorGeneratortext = ''with open(r'C:\Users\Administrator\Desktop\疫苗名称.t...

2018-07-27 21:21:55 493

原创简单实现knn

from numpy import *def createdataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ["a","a","b","b"] return group,labelsgroup,labels = knn.createdataset()def class...

2018-07-26 19:59:02 167

原创 tensorflow入门

一元线性回归import tensorflow as tfimport numpy as nplearning_rate = 0.02#学习率training_epochs = 100#跌打次数train_X = np.array([3.3,4.4,5.5,6.71,6.93,4.168,9.779,6.182,7.59,2.167, ...

2018-07-26 18:06:12 162

原创第六章（酸奶饮料新产品口味测试案例研究）

分析目的在10中种样品中，最受欢迎的是哪几种消费者的口味在不同城市有什么不同分析城市和品牌是否存在交互作用交叉表不同因素下均值描述步骤：分析——比较均值——均值条图显示不同品牌的口味评分均值（带误差线）不同品牌评分分析避免城市因素的干扰（可能存在交互项），对每个城市的样本分别进行分析按城市分割文件步骤：数据——拆分文件——选择...

2018-07-19 22:40:15 6917 1

转载机器学习与双重差分（DID）

https://mp.weixin.qq.com/s/iHX7JWqigVvSslP5FijBJg

2018-07-19 16:19:49 7964

原创学院两大佬关于大数据的争论

何大安：大数据会改变人的认知https://mp.weixin.qq.com/s/ldK2x31H5w8YD7F-sQBDcw朱海就：这是理性的狂妄https://mp.weixin.qq.com/s/LPLTcAo_jcRFtIZRGsWJGg

2018-07-19 15:10:24 2126

原创第五章（药物选择决策支持分析）

一、连接数据库安装了mysql之后自动安装了ODBC，在开始菜单下搜索“ODBC”即可，打开ODBC，在用户DCN中设置需要连接的数据库即可。1、选择消费金额前10的顾客根据订单表、订单明细表、客户表写类似sql的语句，根据订单id汇总总金额，根据总金额降序选择前10条，根据订单id合并订单表、最后根据客户id合并客户表即可。用mysql导入数据：打开sqlyog，点击相应的数...

2018-07-17 19:10:39 768 1

原创第三、四章（顾客满意度分析）

第三章顾客满意度分析问卷形式问卷内容变量：年龄、性别、推荐度、购物频次、交通方式。需求：受访者的性别、年龄分布推荐度频数及均数受访者的购物频次分布和均数受访者使用的交通工具一、数据准备1、对年龄数值进行重编码（根据需求1需要计算年龄的均数）将年龄转为组中值（编号2的转为28.5，编号3的转为50）2、对购物频次重编码（根据需求3需要计算频数的...

2018-07-16 19:50:47 2425

原创第一、二章（统计检验模型）

一、数据挖掘方法论CRISP-DM方法论1、商业理解；数据理解；数据准备；建立模型；模型评估；结果部署商业理解：确定商业目标、确定数据挖掘目标；数据理解：数据初步采集、数据描述、数据探索性分析；数据准备：数据清洗、数据构建（衍生变量）、整合数据；建立模型：选择建模技术、生成检验、建模、评估模型；模型评估：评估结果、过程回顾；结果部署：生成最终报告、项目回顾。 ...

2018-07-16 00:14:28 3625

原创今天立个flag

准备把《IBM SPSS数据分析与挖掘实战案例精粹》复习一下，顺便用python代替spss modeler实现数据梳理和算法，一来巩固下统计学知识，二来加强下coding能力！！！学校镇楼！！！...

2018-07-15 18:34:12 1024

kaggle上的一个经典的比赛，试试手，权当了解比赛的过程和了解sklearn的建模过程导库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot')读取数据train_data = pd.read_csv(r'C:\Users\Administrator\Deskto...

2018-04-18 21:56:24 983

原创模拟浏览器抓取淘宝书籍数据

淘宝的html是动态加载的，直接用requests请求并不能找到想要的数据，这里用selenium库模拟浏览器登录并操作导库from selenium import webdriver淘宝的urlurl ='https://www.taobao.com/'browser = webdriver.Chrome()browser.get(url)用css选择器获取淘宝搜索框并输入“书籍”（也可以输入...

2018-04-18 20:55:05 615

原创抓取猫眼电影并保存到mysql和mongdb

导库import reimport requestsfrom bs4 import BeautifulSoup之前预抓取无法返回html，发现是需要headersheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239....

2018-04-18 16:46:48 1002

原创某网站数据分析岗位EDA

导库import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesfont = FontProperties(fname=r'c:\windows\fonts\simsun.ttc',size=12)plt.style.use('ggplot')数据来自...

2018-04-18 16:43:50 923

weixin_40300458的博客