数据分析
文章平均质量分 53
data_dog
创业是不可能创业了,考公又难,只能学一手数据分析打打工了,数据工程师超厉害的,说话又好听,人又实在,我超喜欢的。
展开
-
某网站数据分析岗位EDA
导库import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesfont = FontProperties(fname=r'c:\windows\fonts\simsun.ttc',size=12)plt.style.use('ggplot')数据来自...原创 2018-04-18 16:43:50 · 971 阅读 · 0 评论 -
python浅复制与深复制
浅复制:1、‘=’浅复制b = a改变b的值,a也会发生相同的变化import copy2、copy.copy()浅复制或a.copy()b = copy.copy(a)b = a.copy()如果a 的形式如[1,2,3,4,[5,6]]改变b的1,2,3的值,不会影响a的值,但是改变[5,6]的值,就是相应的改变a内[5,6]的值。深复制b = co...原创 2018-07-30 15:16:30 · 225 阅读 · 0 评论 -
python 关联规则算法 apriori实现
#-*- coding: utf-8 -*-from __future__ import print_functionimport pandas as pd#自定义连接函数,用于实现L_{k-1}到C_k的连接def connect_string(x, ms): x = list(map(lambda i:sorted(i.split(ms)), x)) l = len(x[0...转载 2018-08-03 20:23:21 · 908 阅读 · 0 评论 -
sklearn的pca降维
data = pd.read_excel(r'C:\Users\Administrator\Desktop\principal_component.xls',header = None)from sklearn.decomposition import PCApca = PCA()#默认不输入n_components时,n_components=min(样本数,特征数)pca.fit(d...原创 2018-07-30 16:43:09 · 344 阅读 · 0 评论 -
keras做分类
data = pd.read_excel(r'C:\Users\Administrator\Desktop\sales_data.xls',index_col = '序号')data['天气']= data['天气'].map({'坏':0,'好':1})data['是否周末'] = data['是否周末'].map({'是':1,'否':0})data['是否有促销'] = data[...原创 2018-07-30 19:18:19 · 526 阅读 · 2 评论 -
《数据挖掘导论》混淆矩阵
发现有很多资料对混线矩阵以及recall、precision的定义不一致,经过比较发现《数据挖掘导论》对其定义比较的正确 混淆矩阵 预测值 + - 真实值 + TP FN - FP TN 所谓的TN,TP都是针对预测值阐述的,例如预测值为‘-’,对应的为‘N’,至于是TN还是FN根据真实值的情况判断,真实值也为‘-’,则TN,...原创 2018-07-30 20:04:35 · 1051 阅读 · 0 评论 -
tsne降维可视化
import matplotlib.pyplot as pltfrom sklearn.manifold import TSNEtsne = TSNE()tsne.fit_transform(data_scale)tsne = pd.DataFrame(tsne.embedding_,index = data_scale.index)#tsne.embedding_即降维后的二维数据...原创 2018-07-31 14:10:22 · 4239 阅读 · 0 评论 -
python时间序列(ARIMA)分析步骤
data = pd.read_excel(r'C:\Users\Administrator\Desktop\arima_data.xls',index_col = '日期')data.plot()单调递增的,不平稳单位根检验下from statsmodels.tsa.stattools import adfuller as ADFADF(data['销量'])>...原创 2018-07-31 15:57:37 · 13112 阅读 · 8 评论 -
聚类检测异常点
主要思想:用聚类方式划分数据为不同的簇,计算簇内每个点对于簇中心的相对距离(相对距离 = 点到簇中心的距离/这个簇所有点到簇中心距离的中位数),可视化后,检测出相对距离较大的点。注意是每个点到簇中心的距离的中位数,不是平均值,因为异常值对中位数的影响很小,几乎可以忽略,但是对均值的影响很大。 from sklearn import preprocessingfrom sklea...原创 2018-07-31 18:40:18 · 8686 阅读 · 3 评论 -
牛顿插值法和拉格朗日插值法
1、牛顿插值法转载于https://blog.csdn.net/deramer1/article/details/79037740 x = [0,1,2,3,5,6]#输入已知的x值y = [0,1,4,9,25,36]#输入已知的y值def five_order_difference_quotient(x, y): # i记录计算差商的次数,这里循环5次,计算5次...原创 2018-07-30 14:13:17 · 1742 阅读 · 0 评论 -
简单实现knn
from numpy import *def createdataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ["a","a","b","b"] return group,labelsgroup,labels = knn.createdataset()def class...原创 2018-07-26 19:59:02 · 185 阅读 · 0 评论 -
tensorflow入门
一元线性回归import tensorflow as tfimport numpy as nplearning_rate = 0.02#学习率training_epochs = 100#跌打次数train_X = np.array([3.3,4.4,5.5,6.71,6.93,4.168,9.779,6.182,7.59,2.167, ...原创 2018-07-26 18:06:12 · 186 阅读 · 0 评论 -
预测泰坦尼克获救人数
kaggle上的一个经典的比赛,试试手,权当了解比赛的过程和了解sklearn的建模过程导库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot')读取数据train_data = pd.read_csv(r'C:\Users\Administrator\Deskto...原创 2018-04-18 21:56:24 · 1021 阅读 · 0 评论 -
第三、四章(顾客满意度分析)
第三章顾客满意度分析 问卷形式 问卷内容变量:年龄、性别、推荐度、购物频次、交通方式。需求:受访者的性别、年龄分布 推荐度频数及均数 受访者的购物频次分布和均数 受访者使用的交通工具一、数据准备1、对年龄数值进行重编码(根据需求1需要计算年龄的均数)将年龄转为组中值(编号2的转为28.5,编号3的转为50)2、对购物频次重编码(根据需求3需要计算频数的...原创 2018-07-16 19:50:47 · 2479 阅读 · 0 评论 -
第五章(药物选择决策支持分析)
一、连接数据库安装了mysql之后自动安装了ODBC,在开始菜单下搜索“ODBC”即可,打开ODBC,在用户DCN中设置需要连接的数据库即可。1、选择消费金额前10的顾客根据订单表、订单明细表、客户表写类似sql的语句,根据订单id汇总总金额,根据总金额降序选择前10条,根据订单id合并订单表、最后根据客户id合并客户表即可。用mysql导入数据:打开sqlyog,点击相应的数...原创 2018-07-17 19:10:39 · 893 阅读 · 1 评论 -
学院两大佬关于大数据的争论
何大安:大数据会改变人的认知https://mp.weixin.qq.com/s/ldK2x31H5w8YD7F-sQBDcw朱海就:这是理性的狂妄https://mp.weixin.qq.com/s/LPLTcAo_jcRFtIZRGsWJGg原创 2018-07-19 15:10:24 · 2189 阅读 · 0 评论 -
机器学习与双重差分(DID)
https://mp.weixin.qq.com/s/iHX7JWqigVvSslP5FijBJg转载 2018-07-19 16:19:49 · 8573 阅读 · 0 评论 -
第六章(酸奶饮料新产品口味测试案例研究)
分析目的在10中种样品中,最受欢迎的是哪几种 消费者的口味在不同城市有什么不同 分析城市和品牌是否存在交互作用 交叉表 不同因素下均值描述步骤:分析——比较均值——均值条图显示不同品牌的口味评分均值(带误差线) 不同品牌评分分析避免城市因素的干扰(可能存在交互项),对每个城市的样本分别进行分析按城市分割文件步骤:数据——拆分文件——选择...原创 2018-07-19 22:40:15 · 7070 阅读 · 1 评论 -
今天立个flag
准备把《IBM SPSS数据分析与挖掘实战案例精粹》复习一下,顺便用python代替spss modeler实现数据梳理和算法,一来巩固下统计学知识,二来加强下coding能力!!!学校镇楼!!!...原创 2018-07-15 18:34:12 · 1073 阅读 · 0 评论 -
第一、二章(统计检验模型)
一、数据挖掘方法论CRISP-DM方法论1、商业理解;数据理解;数据准备;建立模型;模型评估;结果部署商业理解:确定商业目标、确定数据挖掘目标;数据理解:数据初步采集、数据描述、数据探索性分析;数据准备:数据清洗、数据构建(衍生变量)、整合数据;建立模型:选择建模技术、生成检验、建模、评估模型;模型评估:评估结果、过程回顾;结果部署:生成最终报告、项目回顾。 ...原创 2018-07-16 00:14:28 · 3661 阅读 · 0 评论 -
中国近三年疫苗分布情况词云分析
数据来自githubfrom os import pathimport jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,STOPWORDS,ImageColorGeneratortext = ''with open(r'C:\Users\Administrator\Desktop\疫苗名称.t...原创 2018-07-27 21:21:55 · 512 阅读 · 0 评论