Python
文章平均质量分 65
小天资源
专注于各种资源、教程,免费分享
展开
-
Python数据建模--蒙特卡罗模拟
蒙特卡罗模拟π的计算引入库计算积分 y = x**2厕所排队问题介绍实现图形展示蒙特卡罗模拟介绍:蒙特卡罗(Monte Carlo)方法,又称随机抽样或统计试验方法,是以概率和统计理论方法为基础的一种计算方法,使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。① π的计算② 计算积分 y = x**2③ 排队上厕所问题π的计算引入库import numpy as npimport pandas原创 2020-05-15 10:38:01 · 1771 阅读 · 1 评论 -
Python数据建模--K-means聚类
K-means聚类创建数据构建K均值模型K-means聚类的python实现方法介绍:最常用的机器学习聚类算法,且为典型的基于距离的聚类算法K均值: 基于原型的、划分的距离技术,它试图发现用户指定个数(K)的簇,以欧式距离作为相似度测度创建数据from sklearn.datasets.samples_generator import make_blobs# make_blobs聚类数据生成器x,y_true = make_blobs(n_samples = 300, # 生成300条数原创 2020-05-15 10:33:42 · 1597 阅读 · 0 评论 -
Python数据建模--主成分分析
主成分分析二维数据降维导入库数据创建数据在图形中展示构建模型数据转换,生成新变量数据在图中展示多维数据降维加载数据模型建立二维数据制图主成分筛选绘制结果图PCA主成分分析的python实现方法介绍:最广泛无监督算法 + 基础的降维算法,通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量 → 高维数据的降维分类:二维数据降维 / 多维数据降维二维数据降维导入库import numpy as npimport pandas as pdimport matplotli原创 2020-05-15 10:30:34 · 3257 阅读 · 1 评论 -
Python数据建模--分类
分类电影分类导入库数据创建创建knn模型,并预测【18,90】在图中展示各电影位置增加数据量进行模型训练图中展示植物分类数据导入并输出数据特征把数字转换为标记名字训练模型并预测最邻近分类的python实现方法介绍:在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别实例:电影分类 / 植物分类电影分类导入库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matp原创 2020-05-15 10:19:49 · 2294 阅读 · 2 评论 -
Python数据建模--回归
这里写目录标题线性回归的python实现方法简单线性回归导入库生成数据并绘制成散点图训练模型生成测试数据集绘制拟合直线打印直线参数和直线方程误差分析创建样本数据并进行拟合绘制误差线多元线性回归创建数据创建模型,拟合数据线性回归模型评估创建数据多元回归拟合计算均方根、均方差和确定系数介绍:线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建原创 2020-05-15 10:02:00 · 1869 阅读 · 0 评论 -
Python数据预处理--数据连续属性离散化
数据连续属性离散化数据连续属性离散化等宽法导入库创建一组年龄数据并使用cut进行分组用labels参数设置自己的区间名称对DataFrame进行等分利用散点图进行图示显示等频法利用qcut进行四分位数切割利用散点图进行图示显示数据连续属性离散化介绍:连续属性变换成分类属性,即连续属性离散化在数值的取值范围内设定若干个离散划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表每个子区间中的数据值分类:等宽法 / 等频法等宽法导入库import numpy as npimport原创 2020-05-15 09:36:32 · 2866 阅读 · 1 评论 -
Python数据预处理--数据归一化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。 在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权 最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上0-1标准化 / Z-score标准化原创 2020-05-15 08:05:45 · 7696 阅读 · 1 评论 -
Python数据预处理--异常值处理
异常值处理异常值分析3σ原则创建数据、计算均值和标准差、筛选异常值绘制数据密度曲线利用散点图绘制出数据和异常值箱型图分析, 较准确箱型图看数据分布情况计算基本统计量和分位差计算异常值条数图表表达介绍:异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补异常值分析3σ原则介绍:3σ原则:如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过3倍的值 → p(|原创 2020-05-15 07:43:04 · 5866 阅读 · 4 评论 -
Python数据预处理--缺失值处理
介绍:数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著处理方法:删除记录 / 数据插补 / 不处理原创 2020-05-15 07:30:08 · 3723 阅读 · 0 评论 -
Python特征分析- 相关性分析
Python特征分析- 相关性分析相关性分析引入库图示初判变量之间的线性相关性散点图矩阵初判多变量间关系Pearson相关系数创建样本数据正态性检验 → pvalue >0.05制作Pearson相关系数求值表求出rPearson相关系数 - 算法Sperman秩相关系数创建样本数据重新排序、index求出rsPearson相关系数 - 算法相关性分析介绍:分析连续变量之间的线性相关程度的强弱方法:图示初判 / Pearson相关系数(皮尔逊相关系数) / Sperman秩相关系数(斯皮尔曼相关原创 2020-05-12 10:35:16 · 14244 阅读 · 2 评论 -
Python特征分析-正态性检验
Python特征分析-正态性检验正态性检验引入库直方图初判QQ图判断创建数据->计算均值、方差、百分位数、1/4\,2/4位数绘制数据分布图、直方图、QQ图KS检验理论推导直接用算法做KS检验正态性检验介绍:利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。方法:直方图初判 、 QQ图判断、 K-S检验引入库import matplotlib.pyplot as pltimport numpy as npimport pandas原创 2020-05-12 10:22:42 · 1702 阅读 · 0 评论 -
Python数据特征分析-帕累托分析
Python数据特征分析-帕累托分析帕累托分析介绍:引入所需要的库创建数据,10个品类产品的销售额排序并创建营收柱状图找出累计占比超过80%时候的index和索引位置找出核心产品(决定性因素产品)把80%的点绘制到图中帕累托分析介绍:帕累托分析(贡献度分析) → 帕累托法则:20/80定律“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。”→ 一个公司,80%利润来自于2原创 2020-05-12 10:01:34 · 2296 阅读 · 0 评论 -
Python数据特征分析-统计分析
Python数据特征分析-统计分析统计分析导入库集中趋势度量算数平均数位置平均数离中趋势度量极差、分位差方差与标准差统计分析介绍:统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析导入库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inline集中趋势度量介绍:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值 —— 统计平均数分为:算数原创 2020-05-12 09:49:07 · 3280 阅读 · 0 评论 -
Python数据特征分析-对比分析
Python数据特征分析-对比分析对比分析1、绝对数比较 → 相减生成数据折线图比较柱状图比较柱状图堆叠图比较差值折线图比较2、相对数比较 → 相除结构分析生成数据计算额度占比绘制折线图比较AB产品比例分析创建数据-> 消费收入比->面积图表达空间比较分析(横向对比分析)创建数据通过柱状图做横向比较 → 4个产品的销售额总量多系列柱状图,横向比较前十天4个产品的销售额动态对比分析(纵向对比分析)介绍:创建数据 → 30天内A产品的销售情况计算累积增长量和逐期增长量通过折线图查看增长量情况通过折线原创 2020-05-12 09:40:32 · 4085 阅读 · 0 评论 -
python数据特征分析--分布分析
python数据特征分析数据读取,查看数据类型定量数据分析绘制散点图,查看房屋价格的大致分布使用直方图对定量字段进行分组分析,查看参考总价的数据分布使用cut、gcut函数,对参考总价进行分组并应用到总数据中,计算出每一个二手房的参考总价所属的价格区间。计算分组之后的参考总价的频数、频率、累积频率并可视化显示绘制参考总价分布频率直方图定性字段统计二手房朝向的频率、累计频率、频率百分比、累计频率百分比介绍:分布分析 → 研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量数据读取,查看数据类型原创 2020-05-12 09:10:57 · 10402 阅读 · 2 评论 -
利用Python+matplotlib对泰坦尼克号进行数据分析
主要分析有数据接:https://pan.baidu.com/s/1jn88GiOr7uWA8BDQocFXxg 密码: s0e0不同舱位等级中幸存者和遇难者的乘客比例不同性别的幸存比例幸存和遇难旅客的票价分布幸存和遇难乘客的年龄分布不同上船港口的乘客仓位等级分布幸存和遇难乘客堂兄弟姐妹的数量分布幸存和遇难旅客父母子女的数量分布单独乘船与否和幸存之间有没有联系是否成年男性和幸存之间有没有联系数...原创 2020-04-02 16:15:16 · 3327 阅读 · 1 评论 -
使用岭回归对数据进行拟合
改变alpha的值对数据进行拟合。# 岭回归是保留全部的特征变量, 减少特征变量的值来防止过拟合现象from sklearn.linear_model import Ridgefrom sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitX, y = load_...原创 2020-03-21 20:16:42 · 1066 阅读 · 0 评论 -
使用套索回归对数据进行拟合
分别设置alpha为1,0.1,0.001对数据进行训练,并把预测结果绘制成图形,from sklearn.datasets import load_diabetesfrom sklearn.linear_model import Lassofrom sklearn.model_selection import train_test_splitimport numpy as npim...原创 2020-03-21 20:09:28 · 579 阅读 · 0 评论 -
套索回归 (Lasso Regression)的基本应用
一、使用场合 与岭回归类似,套索 (Least Absolute Shrinkage and Selection Operator) 也会对回归系数的绝对值添加一个罚值。此外,它能降低偏差并提高线性回归模型的精度。看看下面的等式:套索回归与岭回归有一点不同,它在惩罚部分使用的是绝对值,而不是平方值。这导致惩罚(即用以约束估计的绝对值之和)值使一些参数估计结果等...转载 2020-03-21 20:06:10 · 5015 阅读 · 0 评论 -
使用LinearRegression对数据进行预测
1.预测两个点import numpy as npfrom sklearn.linear_model import LinearRegressionimport matplotlib.pyplot as plt# # 预测两个点# # 两个点的横坐标X = [[1], [6]]# # 两个点的纵坐标y = [4, 6]lrs = LinearRegression().fi...原创 2020-03-21 19:57:02 · 3087 阅读 · 0 评论 -
使用KNeighborsClassifier训练make_blobs数据集并将其分类
1.从make_blobs中抽取出500个数据并使用散点图进行观察。import matplotlib.pyplot as pltfrom sklearn.datasets import make_blobsdata = make_blobs(n_samples=500, centers=5, random_state=8)X, y = dataplt.scatter(X[:, 0...原创 2020-03-21 19:49:31 · 720 阅读 · 0 评论 -
使用KNeighborsRegressor对make_regression数据集进行训练并预测
1.导入make_regression数据集import matplotlib.pyplot as pltfrom sklearn.datasets import make_regression# 样本特征为1 噪音为50X, y = make_regression(n_features=1, n_informative=1, noise=50, random_state=8)p...原创 2020-03-21 15:56:32 · 950 阅读 · 0 评论 -
使用KNeighborsClassifier对load_wine数据集进行训练并预测
1.导入load_wine数据集from sklearn.datasets import load_wine# data是一种bunch对象 含有键值对data = load_wine()# print(data)print(data.keys())# print(data['data'].shape)# print(data['DESCR'])2.导入模型并训练数据集...原创 2020-03-21 15:50:13 · 1309 阅读 · 0 评论 -
使用KNN分类器对sklearn中自带的make_blobs数据进行分类
1.使用make_blobs生成样本为200,分类为2的数据集,并绘制成散点图。import matplotlib.pyplot as plt# 导入数据集from sklearn.datasets import make_blobs# 导入KNN分类器from sklearn.neighbors import KNeighborsClassifier# 导入数据集拆分工具fro...原创 2020-03-21 15:45:18 · 1024 阅读 · 0 评论 -
使用Python中的matplotlib库读取csv文件绘制各地平均价格和成交量
效果展示*Python代码import pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltdata = pd.read_csv('taobao_data.csv')data.drop(['宝贝', '卖家'], axis=1, inplace=True)data.set_index('位...原创 2020-03-17 18:16:05 · 714 阅读 · 0 评论 -
使用Python中的matplotlib库读取csv文件绘制混合图
效果展示*Python代码import pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mpldata = pd.read_csv('taobao_data.csv', index_col='位置')data.drop(['宝贝', '卖家'], inplace=True, axis=1)d...原创 2020-03-17 18:14:10 · 2282 阅读 · 0 评论 -
使用Python中的pyecharts库读取csv文件绘制词云
效果展示*python代码from pyecharts import WordCloudimport pandas as pdwd = pd.read_csv('cp.csv')word = [i[0] for i in wd[['关键词']].values]value = [i[0] for i in wd[['词频']].values]wordCloud = W...原创 2020-03-17 18:10:58 · 10833 阅读 · 5 评论 -
使用Python中的pyecharts库读取json文件绘制饼图
效果展示Python代码import jsonfrom pyecharts import Pief = open('pies.json', encoding='gbk')data = json.load(f)print(data)name = data['name']sales = data['sales']sales_volume = data['sales_...原创 2020-03-17 18:04:04 · 2444 阅读 · 0 评论 -
使用Python中的pyecharts库绘制水球图
效果展示原创 2020-03-17 18:00:47 · 2621 阅读 · 0 评论 -
使用Python中的pyecharts库读取json文件绘制折线图-柱状图
效果展示Python代码import jsonfrom pyecharts import Bar, Line, Overlapf = open('overlaps.json', encoding='gbk')data = json.load(f)date = data['date']sales1 = data['sales1']sales2 = data['sales2'...原创 2020-03-17 17:55:38 · 2558 阅读 · 0 评论 -
使用Python中的pyecharts库读取json文件绘制折线图
折线图效果展示*import jsonfrom pyecharts import Linef = open('lines.json', encoding='gbk')data = json.load(f)datas = data['date']sales1 = data['sales1']sales2 = data['sales2']line = Line('折线图'...原创 2020-03-17 17:52:58 · 1991 阅读 · 0 评论 -
使用Python中的pyecharts库绘制仪表盘
绘制结果展示*from pyecharts import Gaugegauge = Gauge('仪表盘')# add( 图例名称, 属性名称, 属性值, 仪表盘数据范围默认0-100gauge.add('任务指标', "完成度", 90, scale_range=[50, 100], angle_range=[0, 180])gauge.render('gauge.html...原创 2020-03-17 17:48:42 · 2522 阅读 · 1 评论 -
使用Python中的pyecharts库读取json文件绘制漏斗图
绘制效果展示*import jsonfrom pyecharts import Funnelf = open('pies.json', encoding='gbk')data = json.load(f)print(data)name = data['name']sales = data['sales']sales_volume = data['sales_volume'...原创 2020-03-17 17:46:52 · 783 阅读 · 0 评论 -
使用Python中的pyecharts库读取json文件绘制面积折线图
绘制结果展示*import jsonfrom pyecharts import Linef = open('lines.json', encoding='gbk')data = json.load(f)datas = data['date']sales1 = data['sales1']sales2 = data['sales2']line = Line('面积折线图'...原创 2020-03-17 17:43:23 · 817 阅读 · 0 评论 -
使用Python中的pyecharts库读取json文件绘制Bar3D
绘制结果展示*import jsonfrom pyecharts import Bar3Df = open('bar3ds.json', encoding='gbk')data = json.load(f)x_axis = data['x_axis']y_axis = data['y_axis']range_color = data['range_color']data =...原创 2020-03-17 17:38:40 · 1795 阅读 · 1 评论 -
案例-基于RFM的精细化用户管理
# 导入库import time # 时间库import numpy as np # numpy库import pandas as pd # pandas库import pymysql # mysql连接库from pyecharts import Bar3D # 3D柱形图from sklearn.ensemble import RandomForestClassifi...原创 2020-03-15 08:54:08 · 322 阅读 · 0 评论 -
案例-基于多项式贝叶斯的增量学习的文本分类
# 说明# - Python版本:64位 3.7# - 依赖库:re、tarfile、os、numpy、bs4、sklearn# - 程序输入:article.txt、news_data.tar.gz# - 程序输出:打印输出新的内容所属的主题信息# 程序# 导入库import osimport reimport tarfileimport numpy as np...原创 2020-03-15 08:53:48 · 413 阅读 · 0 评论 -
案例-基于潜在狄利克雷分配(LDA)的内容主题挖掘
# 一、案例-基于潜在狄利克雷分配(LDA)的内容主题挖掘# 说明# - Python版本:64位 3.7# - 依赖库:tarfile、os、jieba、gensim、bs4# - 程序输入:article.txt、news_data.tar.gz# - 程序输出:打印输出18个主题及新文本的预测主题归属# 程序# 导入库import osimport tarfile...原创 2020-03-15 08:53:11 · 915 阅读 · 2 评论 -
案例-基于自动K值的KMeans广告效果聚类分析
# 二、案例-基于自动K值的KMeans广告效果聚类分析# 说明# - Python版本:64位 3.7# - 依赖库:matplotlib、numpy、pandas、sklearn# - 程序输入:ad_performance.txt# - 程序输出:打印输出不同聚类类别的信息# 程序# 导入库import matplotlib.pyplot as plt # 图形库...原创 2020-03-15 08:52:33 · 1251 阅读 · 0 评论 -
案例-基于自动节点树的数据异常原因下探分析
# - 依赖库:datetime、numpy、pandas、graphviz# - 程序输入:advertising_data.csv# - 程序输出:打印输出并保存节点树图change_analysis_tree.png# 程序# 导入库import datetimeimport numpy as npimport pandas as pdfrom graphviz im...原创 2020-03-15 08:51:53 · 263 阅读 · 0 评论