excel和python数分
excel和python数分
sevieryang
DM/DW/Statistics/Quant
展开
-
Kmeans-fish
#导入模块from sklearn.pipeline import make_pipelinefrom sklearn.preprocessing import StandardScalerfrom sklearn.cluster import KMeansimport pandas as pd#读数据df = pd.read_csv('./fish.csv')# print(d...转载 2019-03-26 23:50:58 · 200 阅读 · 0 评论 -
Kmeans-test2
'''随机创建1000个具有二维特征的数据集,样本大致分为4类。'''#导入模块import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets.samples_generator import make_blobsfrom sklearn.cluster import KMeansfrom sklear...原创 2019-03-22 23:30:55 · 122 阅读 · 0 评论 -
15-3
#导入模块import numpy as npimport matplotlib.pyplot as pltfrom math import sqrt#计算欧式距离def eucDistance(vec1,vec2): return sqrt(sum(pow(vec2-vec1,2)))#初始聚类中心选择def initCentroids(dataSet,k): ...原创 2019-03-22 23:30:07 · 175 阅读 · 0 评论 -
16-1
#导入模块import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesfrom sklearn.linear_model import LinearRegression#字体font = FontProperties(fname=r'c:\Wind...原创 2019-03-22 23:29:20 · 177 阅读 · 0 评论 -
16-2
#导入模块import matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom matplotlib.font_manager import FontProperties#准备训练数据X = [[147,9],[129,7],[141,9],[145,11],[142,11],[151,...原创 2019-03-22 23:28:44 · 320 阅读 · 0 评论 -
16-3
# 导入模块import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom matplotlib.font_manager import FontPropertiesfrom sklearn.preprocessing import Polynom...原创 2019-03-22 23:28:02 · 341 阅读 · 0 评论 -
16-4
# 导入模块import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.linear_model import LinearRegression# 输入文件,将房间大小和价格的数据转成scikitlearn中LinearRegression模型识别的数据def get_data(file_name): data...原创 2019-03-22 23:27:27 · 276 阅读 · 0 评论 -
16-5
# 导入模块import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn import...原创 2019-03-22 23:26:37 · 274 阅读 · 0 评论 -
16-6
# 导入模块import matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import load_irisfrom sklearn.linear_model import LogisticRegression# 读入数据iris = load_iris()X = iris.data[:, :2]Y =...原创 2019-03-22 23:25:58 · 282 阅读 · 0 评论 -
百度热力图的基础用法(中) · 新技术在交评中的应用(九)
https://mp.weixin.qq.com/s/liDTEvzT9MrxHBn8-vOYzQ转载 2019-03-11 23:54:24 · 1389 阅读 · 0 评论 -
提前5周达成减肥目标的方法
https://mp.weixin.qq.com/s/fmQmlR5_6jGMR7XGtq91Cg转载 2019-03-11 23:53:13 · 438 阅读 · 0 评论 -
哪一个统计量是真的?
https://mp.weixin.qq.com/s/3lFl253dCHNdkTGVsOnR4g转载 2019-03-11 23:52:03 · 370 阅读 · 0 评论 -
Seaborn忽略FutureWarning警告信息
ML学习Seaborn时候发现有如下提示/usr/local/python3/lib/python3.6/site-packages/scipy/stats/stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq...原创 2019-02-20 22:39:47 · 1077 阅读 · 0 评论 -
数分笔记整理27 - 数据处理项目 - 泰坦尼克号获救问题
'''【项目15】 泰坦尼克号获救问题数据来源:Kaggle数据集 → 共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)字段意义: PassengerId: 乘客编号 Survived :存活情况(存活:1 ; 死亡:0) Pclass : 客舱等级 Name ...原创 2019-02-02 19:54:47 · 740 阅读 · 0 评论 -
数分笔记整理26 - 数据处理项目 - 婚恋配对实验
'''【项目14】 婚恋配对实验婚恋配对模拟规则:① 按照一定规则生成了1万男性+1万女性样本: ** 在配对实验中,这2万个样本具有各自不同的个人属性(财富、内涵、外貌),每项属性都有一个得分 ** 财富值符合指数分布,内涵和颜值符合正态分布 ** 三项的平均值都为60分,标准差都为15分② 模拟实验。基于现实世界的提炼及适度简化,我们概括了三个最主流的择偶策略:...原创 2019-02-02 19:54:30 · 944 阅读 · 0 评论 -
数分笔记整理24 - 数据处理项目 - 社会财富分配问题模拟
'''【项目13】 社会财富分配问题模拟一个财富分配游戏:房间里有100个人,每人都有100元钱,他们在玩一个游戏。每轮游戏中,每个人都要拿出一元钱随机给另一个人,最后这100个人的财富分布是怎样的?研究问题:1、财富分配模型模型假设:① 每个人初始基金100元② 从18岁到65岁,每天玩一次,简化运算按照一共玩17000轮③ 每天拿出一元钱,并且随机分配给另一个人④ 当...原创 2019-02-01 12:18:22 · 853 阅读 · 0 评论 -
数分笔记整理25 - 数据处理项目 - 中国城市资本流动问题探索
【项目12】 中国城市资本流动问题探索'''【项目12】 中国城市资本流动问题探索数据:全国2013-2016所有企业间的投融资信息数据作业要求1、查看全国城际控股型投资关系要求:① 通过“data.xlsx”导出csv后,直接通过gephi看全国投资情况,有什么发现?② 分别筛选出“同城投资”、“跨城投资”的TOP20,比较一下两类投资的数据分布 ** 按照2013...原创 2019-02-01 12:19:43 · 727 阅读 · 3 评论 -
数分笔记整理22 - 数据处理项目 - 中国姓氏排行研究 & 房价影响因素挖掘
【项目09】 中国姓氏排行研究'''【项目09】 中国姓氏排行研究作业要求1、数据清洗、整合要求:① 将“data01”、“data02”分别读取,并且合并成一个数据② 结合“户籍地城市编号”及“中国城市代码对照表”数据,将城市经纬度连接进数据中③ 分别提取“工作地”中的省、市提示:① 可以先读取“data01”、“data02”,然后用pd.concat()来连接数据...原创 2019-02-01 12:00:18 · 1218 阅读 · 3 评论 -
数分笔记整理21 - 数据处理项目 - 城市餐饮店铺选址分析 & 电商打折套路解析
【项目07】 城市餐饮店铺选址分析'''【项目07】 城市餐饮店铺选址分析1、从三个维度“口味”、“人均消费”、“性价比”对不同菜系进行比较,并筛选出可开店铺的餐饮类型要求:① 计算出三个维度的指标得分② 评价方法: 口味 → 得分越高越好 性价比 → 得分越高越好 人均消费 → 价格适中即可③ 制作散点图,x轴为“人均消费”,y轴为“性价比得分”,点的大小为...原创 2019-02-01 11:54:32 · 1906 阅读 · 6 评论 -
数分笔记整理20 - 数据处理项目 - 多场景下的算法构建 & 多场景下的图表可视化表达
【项目05】 多场景下的算法构建'''【项目05】 多场景下的算法构建课程数据:某公司A,B产品在2018年1,2,3月的销量数据,数据格式为xlsx作业要求:1、批量读取数据,并输出以下信息(1)数据量(2)数据字段columns(3)输出每个文件分别有多少缺失值要求:① 创建独立函数,从读取数据到以上输出要求② 运行代码多次调用创建函数,对数据进行批量处理提示...原创 2019-02-01 11:49:19 · 771 阅读 · 0 评论 -
数分笔记整理19 - 数据处理项目 - 知乎数据清洗整理和结论研究 & 视频网站数据清洗整理和结论研究
'''【项目03】 知乎数据清洗整理和结论研究作业要求:1、数据清洗 - 去除空值要求:创建函数提示:fillna方法填充缺失数据,注意inplace参数2、问题1 知友全国地域分布情况,分析出TOP20要求:① 按照地域统计 知友数量、知友密度(知友数量/城市常住人口),不要求创建函数② 知友数量,知友密度,标准化处理,取值0-100,要求创建函数③ 通过多系列柱状图,...原创 2019-02-01 11:44:50 · 880 阅读 · 0 评论 -
数分笔记整理18 - 数据处理项目 - 商铺数据加载及存储 & 基于Python的算法函数创建
'''【项目01】 商铺数据加载及存储作业要求:1、成功读取“商铺数据.csv”文件2、解析数据,存成列表字典格式:[{'var1':value1,'var2':value2,'var3':values,...},...,{}]3、数据清洗:① comment,price两个字段清洗成数字② 清除字段缺失的数据③ commentlist拆分成三个字段,并且清洗成数字4、结果存...原创 2019-02-01 11:38:14 · 517 阅读 · 0 评论 -
数分笔记整理17 - 数据处理项目 - Numpy结合图像
Numpy应用案例借用吴恩达大神夫妇图片~注:使用numpy库来对图像进行处理。这里我们使用matplotlib.pyplot的相关方法来辅助。import numpy as npimport matplotlib.pyplot as plt图像读取与显示plt.imread:读取图像,返回图像的数组。plt.imshow:显示图像。plt.imsave:保存图像。说明:...原创 2019-01-27 22:36:03 · 527 阅读 · 0 评论 -
项目整理-贷款项目
数据集描述• id 贷款编号。• member_id 会员编号。• loan_amnt 借款人申请的贷款金额。• funded_amnt 承诺给该贷款的总金额。• funded_amnt_inv 投资者为该贷款承诺的总金额。• term 贷款的偿还时间。• int_rate 贷款的利率。• installment 分期付款,每期还款的额度。• grade 贷款等级。贷款利率越高,...原创 2019-02-18 10:29:42 · 3397 阅读 · 0 评论 -
6-2. 实战项目:足球运动员分析
足球运动员分析背景信息当前,足球运动是最受欢迎的运动之一(也可以说没有之一)。任务说明我们的任务,就是在众多的足球运动员中,发现统计一些关于足球运动员的共性,或某些潜在的规律。数据集描述数据集包含的是2017年所有活跃的足球运动员。Name 姓名Nationality 国籍National_Position 国家队位置National_Kit 国家队号码Club 所在俱乐部...原创 2019-02-19 08:54:54 · 2741 阅读 · 1 评论 -
保险赔付项目
当你在严重车祸中受到损伤,你重点关心的事是:家人,朋友和其他所爱的人。你希望你时间或精力花在最后的地方是将合同交给保险代理人,这也是为什么美国的私人保险公司Allstate正在不断寻求新的想法,给超过1600万受保的家庭提升理赔服务。Allstate公司目前正在开发自动预测理赔的成本及严重程度的算法...原创 2019-02-19 00:20:13 · 680 阅读 · 0 评论 -
分类问题:使用决策树对身高体重数据进行分类
import numpy as npimport scipy as spfrom sklearn import treefrom sklearn.metrics import precision_recall_curvefrom sklearn.metrics import classification_reportfrom sklearn.model_selection import ...原创 2019-01-27 22:50:15 · 1063 阅读 · 0 评论 -
案例实战-信用卡欺诈检测
# 导入模块import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.linear_model import LinearRegression# 输入文件,将房间大小和价格的数据转成scikitlearn中LinearRegression模型识别的数据def get_data(file_name): data...原创 2019-01-21 07:49:37 · 2252 阅读 · 1 评论 -
几个常见问题的总结和电影评论分类
# -*- coding: utf-8 -*-"""Created on Mon Nov 26 16:34:29 2018@author: Sevier""" from keras.datasets import imdbimport numpy as npfrom keras import modelsfrom keras import layersimpor原创 2019-02-19 14:35:10 · 488 阅读 · 0 评论 -
逻辑回归与购买意向预测
# -*- coding: utf-8 -*-"""Created on Thu Sep 6 18:39:01 2018@author: zhengyuv""" import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import原创 2019-02-19 14:32:41 · 820 阅读 · 0 评论 -
用keras做路透社新闻分类
# -*- coding: utf-8 -*-"""Created on Fri Nov 30 09:22:03 2018@author: Sevier"""from keras.datasets import reutersimport numpy as npfrom keras import modelsfrom keras import layersimpor原创 2019-02-19 14:31:59 · 358 阅读 · 0 评论 -
使用AdaBoost方法进行二元分类
#导入模块import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import AdaBoostClassifierfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import make_gaussian_qu...原创 2019-01-31 23:58:08 · 345 阅读 · 0 评论 -
使用随机森林方法预测乘员的存活概率
#导入相关模块import numpy as npimport pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn import cross_validation#读取csv,获取训练集和测试集train = pd.read_csv('./train.csv',dtype={'Age'...原创 2019-01-31 23:56:53 · 4090 阅读 · 1 评论 -
Kaggle —— 泰坦尼克号Titanic生存预测
转自:作者: 大树先生博客: http://blog.csdn.net/koala_tree知乎:https://www.zhihu.com/people/dashuxianshengGitHub:https://github.com/KoalaTree感谢~原文如下:一直想在Kaggle上参加一次比赛,奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识,断断续...转载 2019-01-22 16:50:30 · 1556 阅读 · 0 评论 -
KNN算法在保险业精准营销中的应用
转自:https://www.cnblogs.com/lafengdatascientist/p/5601346.html作者:依然很拉风感谢~一、KNN算法概述KNN是Machine Learning领域一个简单又实用的算法,与之前讨论过的算法主要存在两点不同:它是一种非参方法。即不必像线性回归、逻辑回归等算法一样有固定格式的模型,也不需要去拟合参数。它既可用于分类,又可应用于回归...转载 2019-01-21 13:44:09 · 602 阅读 · 0 评论 -
回归问题:运用逻辑回归分析详解鸢尾花数据
# 导入模块import matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import load_irisfrom sklearn.linear_model import LogisticRegression# 读入数据iris = load_iris()X = iris.data[:, :2]Y =...原创 2019-01-21 07:52:14 · 4382 阅读 · 0 评论 -
回归问题3:多元回归分析cases(产品销量与广告&supermaket)
# 导入模块import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn import...原创 2019-01-21 07:50:59 · 1147 阅读 · 1 评论 -
过拟合实例:三次、四次回归效果怎么样?
# 导入模块import matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeatures# 输入训练数据和测试数据X_train = [[0.86], [0.96], [1.12], [1.35], ...原创 2019-01-21 07:48:18 · 2085 阅读 · 0 评论 -
回归问题:身高与体重的多项式回归(二次回归)分析
# 导入模块import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom matplotlib.font_manager import FontPropertiesfrom sklearn.preprocessing import Polynom...原创 2019-01-21 07:45:29 · 3831 阅读 · 0 评论 -
回归问题2:运用二元线性回归分析身高与体重
#导入模块import matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom matplotlib.font_manager import FontProperties#准备训练数据X = [[147,9],[129,7],[141,9],[145,11],[142,11],[151,...原创 2019-01-21 07:43:16 · 3535 阅读 · 1 评论