自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 python 关联规则算法 apriori实现

#-*- coding: utf-8 -*-from __future__ import print_functionimport pandas as pd#自定义连接函数,用于实现L_{k-1}到C_k的连接def connect_string(x, ms): x = list(map(lambda i:sorted(i.split(ms)), x)) l = len(x[0...

2018-08-03 20:23:21 855

原创 聚类检测异常点

主要思想:用聚类方式划分数据为不同的簇,计算簇内每个点对于簇中心的相对距离(相对距离 = 点到簇中心的距离/这个簇所有点到簇中心距离的中位数),可视化后,检测出相对距离较大的点。注意是每个点到簇中心的距离的中位数,不是平均值,因为异常值对中位数的影响很小,几乎可以忽略,但是对均值的影响很大。 from sklearn import preprocessingfrom sklea...

2018-07-31 18:40:18 8564 3

原创 python时间序列(ARIMA)分析步骤

data = pd.read_excel(r'C:\Users\Administrator\Desktop\arima_data.xls',index_col = '日期')data.plot()单调递增的,不平稳单位根检验下from statsmodels.tsa.stattools import adfuller as ADFADF(data['销量'])&gt...

2018-07-31 15:57:37 12981 8

原创 tsne降维可视化

import matplotlib.pyplot as pltfrom sklearn.manifold import TSNEtsne = TSNE()tsne.fit_transform(data_scale)tsne = pd.DataFrame(tsne.embedding_,index = data_scale.index)#tsne.embedding_即降维后的二维数据...

2018-07-31 14:10:22 4174

原创 《数据挖掘导论》混淆矩阵

发现有很多资料对混线矩阵以及recall、precision的定义不一致,经过比较发现《数据挖掘导论》对其定义比较的正确 混淆矩阵  预测值 + - 真实值 + TP FN - FP TN 所谓的TN,TP都是针对预测值阐述的,例如预测值为‘-’,对应的为‘N’,至于是TN还是FN根据真实值的情况判断,真实值也为‘-’,则TN,...

2018-07-30 20:04:35 1018

原创 keras做分类

data = pd.read_excel(r'C:\Users\Administrator\Desktop\sales_data.xls',index_col = '序号')data['天气']= data['天气'].map({'坏':0,'好':1})data['是否周末'] = data['是否周末'].map({'是':1,'否':0})data['是否有促销'] = data[...

2018-07-30 19:18:19 506 2

原创 sklearn的pca降维

data = pd.read_excel(r'C:\Users\Administrator\Desktop\principal_component.xls',header = None)from sklearn.decomposition import PCApca = PCA()#默认不输入n_components时,n_components=min(样本数,特征数)pca.fit(d...

2018-07-30 16:43:09 293

原创 python浅复制与深复制

浅复制:1、‘=’浅复制b = a改变b的值,a也会发生相同的变化import copy2、copy.copy()浅复制或a.copy()b = copy.copy(a)b = a.copy()如果a 的形式如[1,2,3,4,[5,6]]改变b的1,2,3的值,不会影响a的值,但是改变[5,6]的值,就是相应的改变a内[5,6]的值。深复制b = co...

2018-07-30 15:16:30 200

原创 牛顿插值法和拉格朗日插值法

1、牛顿插值法转载于https://blog.csdn.net/deramer1/article/details/79037740 x = [0,1,2,3,5,6]#输入已知的x值y = [0,1,4,9,25,36]#输入已知的y值def five_order_difference_quotient(x, y): # i记录计算差商的次数,这里循环5次,计算5次...

2018-07-30 14:13:17 1694

原创 中国近三年疫苗分布情况词云分析

数据来自githubfrom os import pathimport jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,STOPWORDS,ImageColorGeneratortext = ''with open(r'C:\Users\Administrator\Desktop\疫苗名称.t...

2018-07-27 21:21:55 493

原创 简单实现knn

from numpy import *def createdataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ["a","a","b","b"] return group,labelsgroup,labels = knn.createdataset()def class...

2018-07-26 19:59:02 167

原创 tensorflow入门

一元线性回归import tensorflow as tfimport numpy as nplearning_rate = 0.02#学习率training_epochs = 100#跌打次数train_X = np.array([3.3,4.4,5.5,6.71,6.93,4.168,9.779,6.182,7.59,2.167, ...

2018-07-26 18:06:12 162

原创 第六章(酸奶饮料新产品口味测试案例研究)

分析目的在10中种样品中,最受欢迎的是哪几种 消费者的口味在不同城市有什么不同 分析城市和品牌是否存在交互作用 交叉表 不同因素下均值描述步骤:分析——比较均值——均值条图显示不同品牌的口味评分均值(带误差线) 不同品牌评分分析避免城市因素的干扰(可能存在交互项),对每个城市的样本分别进行分析按城市分割文件步骤:数据——拆分文件——选择...

2018-07-19 22:40:15 6917 1

转载 机器学习与双重差分(DID)

https://mp.weixin.qq.com/s/iHX7JWqigVvSslP5FijBJg

2018-07-19 16:19:49 7964

原创 学院两大佬关于大数据的争论

何大安:大数据会改变人的认知https://mp.weixin.qq.com/s/ldK2x31H5w8YD7F-sQBDcw朱海就:这是理性的狂妄https://mp.weixin.qq.com/s/LPLTcAo_jcRFtIZRGsWJGg

2018-07-19 15:10:24 2126

原创 第五章(药物选择决策支持分析)

一、连接数据库安装了mysql之后自动安装了ODBC,在开始菜单下搜索“ODBC”即可,打开ODBC,在用户DCN中设置需要连接的数据库即可。1、选择消费金额前10的顾客根据订单表、订单明细表、客户表写类似sql的语句,根据订单id汇总总金额,根据总金额降序选择前10条,根据订单id合并订单表、最后根据客户id合并客户表即可。用mysql导入数据:打开sqlyog,点击相应的数...

2018-07-17 19:10:39 768 1

原创 第三、四章(顾客满意度分析)

第三章顾客满意度分析 问卷形式 问卷内容变量:年龄、性别、推荐度、购物频次、交通方式。需求:受访者的性别、年龄分布 推荐度频数及均数 受访者的购物频次分布和均数 受访者使用的交通工具一、数据准备1、对年龄数值进行重编码(根据需求1需要计算年龄的均数)将年龄转为组中值(编号2的转为28.5,编号3的转为50)2、对购物频次重编码(根据需求3需要计算频数的...

2018-07-16 19:50:47 2425

原创 第一、二章(统计检验模型)

一、数据挖掘方法论CRISP-DM方法论1、商业理解;数据理解;数据准备;建立模型;模型评估;结果部署商业理解:确定商业目标、确定数据挖掘目标;数据理解:数据初步采集、数据描述、数据探索性分析;数据准备:数据清洗、数据构建(衍生变量)、整合数据;建立模型:选择建模技术、生成检验、建模、评估模型;模型评估:评估结果、过程回顾;结果部署:生成最终报告、项目回顾。 ...

2018-07-16 00:14:28 3625

原创 今天立个flag

准备把《IBM SPSS数据分析与挖掘实战案例精粹》复习一下,顺便用python代替spss modeler实现数据梳理和算法,一来巩固下统计学知识,二来加强下coding能力!!!学校镇楼!!!...

2018-07-15 18:34:12 1024

原创 预测泰坦尼克获救人数

kaggle上的一个经典的比赛,试试手,权当了解比赛的过程和了解sklearn的建模过程导库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot')读取数据train_data = pd.read_csv(r'C:\Users\Administrator\Deskto...

2018-04-18 21:56:24 983

原创 模拟浏览器抓取淘宝书籍数据

淘宝的html是动态加载的,直接用requests请求并不能找到想要的数据,这里用selenium库模拟浏览器登录并操作导库from selenium import webdriver淘宝的urlurl ='https://www.taobao.com/'browser = webdriver.Chrome()browser.get(url)用css选择器获取淘宝搜索框并输入“书籍”(也可以输入...

2018-04-18 20:55:05 615

原创 抓取猫眼电影并保存到mysql和mongdb

导库import reimport requestsfrom bs4 import BeautifulSoup之前预抓取无法返回html,发现是需要headersheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239....

2018-04-18 16:46:48 1002

原创 某网站数据分析岗位EDA

导库import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesfont = FontProperties(fname=r'c:\windows\fonts\simsun.ttc',size=12)plt.style.use('ggplot')数据来自...

2018-04-18 16:43:50 923

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除