自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 华为的大数据平台—MapReduce服务

内容:大数据相关知识,和目前主流的解决方案MapReduce服务如何使用文章整理自:https://edu.huaweicloud.com/courses大数据的开源解决方案:Hadoop HDFSHDFS是基于Google发布的GFS论文进行设计开发,运行在通用硬件上的分布式文件系统。即,将普通配置的机器结合起来形成一个完整的文件系统HDFS的特点:(...

2019-09-23 18:11:42 3105

原创 大数据体系与SQL

1. 大数据体系2. 数据库 与 数据仓库的区别3.Hadoop和大数据的关系4. SQL和Hadoop区别:5. SQL on Hadoop

2019-09-17 13:17:22 617

原创 Pandas的基础操作:常用函数(求均值,方差,求和,众数,统计元素个数等)/分组运算groupby操作/透视表

刚刚使用Python进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~本文将介绍Pandas操作的最后一个部分,前两篇分别是:《Pandas的基础操作:介绍/创建/查看数据/赋值/常用函数》:https://blog.csdn.net/weixin_42969619/article/details/96863875《...

2019-08-28 17:22:39 22008

原创 Pandas的基础操作:介绍/创建/查看数据/赋值/删除/常用函数接口

Pandas是一个用于处理表格数据的Python模块(即带有行和列的表中的数据) 创建一个DataFrameDataFrame是一个将数据存储为行和列的对象。您可以将DataFrame视为电子表格或SQL表格。您可以手动创建DataFrame,也可以使用CSV,Excel电子表格或SQL查询中的数据填充它。DataFrames有行和列。每列都有一个名称,这是一个字符串。每行都有一个索引,...

2019-08-27 13:56:39 4093

原创 Numpy对数组的操作:创建/变形(升降维等)/计算/取值/复制/分割/合并

1. 简介NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用, 这种组合广泛用于替代 MatLab。SciPy 是一个开源的 Python 算法库和数学工具包。SciPy 包含...

2019-08-25 17:05:10 4655

原创 python3基础语法——对String基本操作(拼接/切片/分割/连接/统计次数/检验是否包含/大小写/删除字符/格式化输出)

方法名参数返回值功能描述.upper()无全部大写了的字符串全部大写.lower()无全部小写了的字符串全部小写.title()无首字母大写的字符串首字母大写.split()1. 无 2.1. 返回一个列表 2. 返回原字符串1. 如果字符串中有 space 则根据 space 分割字符串 2. 如果中间没有space 则不进行分割...

2019-08-23 17:00:28 3042 3

原创 python3基础语法——对list基本操作(创建/添加元素/取值/删除/修改/常用函数)

list a + list b:两个序列连一块list(np.one(10))

2019-08-20 13:36:33 1551

原创 Numpy生成随机分布函数“二项分布”+“正态分布”,使用matplotlib展示概率质量函数(PMF)/概率密度函数(PDF)

生成随机正态分布 numpy.random.binomial(n,p,size):二项分布二项分布(伯努利分布)是n个独立的是/非试验中成功的次数的概率分布,其中每次试验的成功概率为p;np.random.binomial()函数是模拟产生size个符合(n,p)的二项分布随机数,相当于进行size次实验,每次实验投掷了n枚硬币,正面朝上的硬币数就是所产生的随机数 numpy.r...

2019-08-20 00:12:24 3657

原创 Numpy生成随机数

说明:numpy包中可以生成随机数,也可以生成随机分布;本文针对随机数的生成讲述,之后会结合matplotlib模块,单独写一下分布函数的使用及绘制 np.random.seed()的作用:使得随机数据可预测当我们设置相同的seed,每次生成的随机数相同。如果不设置seed,则每次会生成不同的随机数np.random.seed(1676)np.random.rand(5)&gt...

2019-08-19 08:51:47 749

原创 Python3基础标准库——Random模块:随机数/取样

说明:随机数的生成可以使用python的标准库,也可以使用numpy,这里介绍的是使用标准库生成随机数 随机数生成器计算机程序生成的随机数都不是真的随机数,而是以一个种子(真随机数)为初始值,通过算法不停地迭代来生成后续的随机数random.random():生成0到1之间的随机浮点数import randomrandom.random() # 生成一个随机数,且每次运行...

2019-08-19 07:09:45 357

原创 使用matplotlib制作“直方图”:.hist(x,bins,range,label,histtype,density,rwidth,color,orientation,stacked)

有时我们想要了解一个包含许多样本的大型数据集,而不仅仅知道平均值,中位数或标准差的基本指标。为了更直观地了解数据集,我们可以使用直方图来显示所有值。 展示直方图Histograms,使用.hist().hist方法的直方图画法,先查找数据集中的最小值和最大值,并在这些值之间创建bins个等间距的区间,然后统计每个区间中的数据数plt.hist(data)---------------...

2019-08-16 19:38:42 13333

原创 使用Matplotlib制作“条形图”:pyplot.bar(x, height, width, bottom, tick_label, label, **kwargs)

显示一条数据from matplotlib import pyplot as pltdays = [0, 1, 2, 3, 4, 5, 6]money_spent = [10, 12, 12, 10, 14, 22, 24]plt.plot(days, money_spent)plt.show() 对比两条数据在一张图from matplotlib import pyp...

2019-08-16 19:33:47 12847 2

原创 使用matplotlib制作“散点图”:pyplot.scatter(X,Y,alpah,s,c,cmap,maker,linewidths,edgecolors)+ RGB 三元组颜色

在绘图的时候,关于颜色的参数总是很模糊,可以使用"c"也可以使用“cmap”但是不知道区别在哪里,本文除了介绍散点图的参数外,还会详细的介绍一下“颜色”参数相关内容散点图:plt.scatter() 常用参数说明:X, Y :散点的位置alpha:透明度,取值[0,1]且取0时透明s:散点大小c:散点颜色,cmap:设置散点颜色marker:散点形状(详见plt.plot绘制...

2019-08-16 11:38:49 5392

原创 使用matplotlib制作“饼图”:pyplot.pie(X,autopct,labels,explode)

使用matplotlib绘制饼状图,相对来说比较容易,首先介绍pli.pie()函数中的参数以及涉及到的其他调整饼状图的函数:饼状图:plt.pie()参数说明:参数X:a. 如果 sum(X) ≤ 1,X 中的值直接指定饼图扇区的面积。如果 sum(X) < 1,pie 仅绘制部分饼图。b. 如果 sum(X) > 1,则 pie 通过 X/sum(X) 对值进行归一化,...

2019-08-16 09:25:15 9509

原创 使用matplotlib制作“折线图”:pyplot.plot()/给多组数据添加解释图标/放大坐标轴部分区间

创建饼状图创建饼状图:plt.pie()参数是一个float类型的list修改倾斜角度:plt.axis(‘equal’) 添加饼状图细节项展示比例,使用plt.pie()函数,在中间添加参数:autopct(可取值:%d%%表示整数百分比;%0.1f一位小数;%0.1f%%一位小数百分比;%0.2f%%两位小数百分比)展示项目内容,两种方法:a. 直接添加在颜色...

2019-08-15 22:57:08 4256

原创 matplotlib绘制图形入门操作:创建画布/调整子图/创建“AXES轴域”/调整子图间的距离/设置XY轴刻度及刻度名称/XY轴标题/图片标题

创建画布:plt.subplot()包含三个参数:a. The number of rows of subplotsb. The number of columns of subplotsc. The index of the subplot we want to create 一个对称结构的画布plt.subplot(1,2,1)plt.plot(X1,Y1)plt.s...

2019-08-13 21:42:54 3506

原创 Numpy的属性及接口(求和/排序/均值/标准差/中位数等)

求平均值,使用np.mean()函数survey_responses = [5, 10.2, 4, .3 ... 6.6]survey_array = np.array(survey_responses)np.mean(survey_array) -------------- 5.220 求某一条件下数据的数量占总样本数量的百分比,使用np.mean(逻辑删选条件)impor...

2019-08-13 15:46:30 7713

原创 sklearn的交叉验证

交叉验证的目的:更好的评估模型的“准确度”之前说过模型的“随机性”特质,而这种随机性产生的过程:(1)在数据集划分训练集和测试集时,划分结果会干扰模型的结果(2)在训练模型的时候,同一个训练集训练结果也不一样针对这种“随机性”特质,后者我们使用“random_state”参数控制,旨在训练时生成很多棵树,从当前参数组合中,挑选出“最优”的结果返回;我们可以使用socre接口来评估返...

2019-08-13 13:33:43 1965

原创 sklearn的DecisionTreeRegressor 回归树

DecisionTreeRegressorclass sklearn.tree.DecisionTreeRegressor (criterion=’mse’, splitter=’best’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features...

2019-08-13 12:06:35 4525

原创 sklearn的DecisionTreeClassifier与红酒数据集(使用学习曲线确定参数的最优值)

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~涉及决策树其他参数:请转至《DecisionTreeClassifier与红酒数据集(criterion及创建一个树)》:https://blog.csdn.net/weixin_42969619/article/details/988...

2019-08-12 21:56:52 795

原创 sklearn的DecisionTreeClassifier的5个剪枝参数

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~涉及决策树其他参数:请转至《DecisionTreeClassifier与红酒数据集(criterion及创建一个树)》:https://blog.csdn.net/weixin_42969619/article/details/988...

2019-08-12 21:36:26 4304

原创 sklearn的DecisionTreeClassifier的目标权重参数 :class_weight & min_weight_fraction_leaf

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~本文将继续介绍sklearn的决策树模块的其他参数涉及决策树其他参数:请转至《DecisionTreeClassifier与红酒数据集(criterion及创建一个树)》:https://blog.csdn.net/weixin_42...

2019-08-12 21:28:20 6205

原创 sklearn的DecisionTreeClassifier与红酒数据集(决策树的属性与接口)

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~涉及决策树其他参数:请转至《DecisionTreeClassifier与红酒数据集(criterion及创建一个树)》:https://blog.csdn.net/weixin_42969619/article/details/988...

2019-08-12 21:17:38 1560

原创 sklearn的DecisionTreeClassifier的参数random_state

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~本文将继续介绍sklearn的决策树模块的其他参数涉及到的理论知识,请转至上篇《决策树和随机森林》:https://blog.csdn.net/weixin_42969619/article/details/98853206涉及到数据...

2019-08-12 15:00:02 6412 1

原创 DecisionTreeClassifier的参数criterion 与 splitter/使用红酒数据集创建一个树

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~** 上篇《决策树和随机森林》:https://blog.csdn.net/weixin_42969619/article/details/98853206** 下篇 模块sklearn.treesklearn中决策树的类都在...

2019-08-12 14:18:41 5929

原创 探索sklearn的数据集——以红酒数据集为例

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~在sklearn.datasets库中有非常多的知名数据集,在使用数据集前我总是对数据没有直观了解,所以下面整理一些datasets库中数据集的属性及方法,以红酒数据集为例。随着学习还会持续更新! 导入数据集模块并实例化一个数据集...

2019-08-12 14:17:54 20058

原创 python3高级操作:zip ()函数使用

刚刚使用Python进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~zip()函数是将两个可迭代的对象作为参数,一一对应,返回由这些元组组成的对象。可以遍历但是不可以取值,如果想取值就要结合参数的数据类型,将返回的对象list()化或者转化成字典{}等。所以要注意的是:是两个可迭代的对象返回的也是一个对象,所...

2019-08-12 11:34:28 531

原创 jupyter lab无法导入graphviz模块(配置环境变量/更改下载源/更新conda版本/graphviz>>python-graphviz)

刚刚学习,有很多不明白的地方,没有任何依据就直接去尝试了很多操作,结果就是给自己制造了很多麻烦,下面是针对自己的情况整理的“瞎搞”全过程。希望可以给大家提供一个警示作用,以及非常期待童鞋们指点,一下任何操作行为和操作思路上的问题!非常感谢!!1. 问题描述更新anaconda发现包的版本发生回滚现象,重新更新结束后,可以正常使用,通过homebrew安装graphviz后,无法使用jup...

2019-08-12 10:52:40 2955 2

原创 anaconda navigator可视化界面更新操作问题描述

刚刚学习,有很多不明白的地方,没有任何依据就直接去尝试了很多操作,结果就是给自己制造了很多麻烦,下面是针对自己的情况整理的“瞎搞”全过程。希望可以给大家提供一个警示作用,以及非常期待童鞋们指点,一下任何操作行为和操作思路上的问题!非常感谢!!1. 前序MAC电脑,自带python2.X版本,但是在刚刚学习python时,安装了pythonIDE选择3.X版本。后安装anaconda且没有...

2019-08-11 23:06:13 8649

原创 python 数据分析 _统计学常用概念(二)

1.基础概念 样本均值和总体均值如果我们的样本选择很差,那么我们的样本均值会严重偏离我们的总体均值。有一种可靠的方法可以降低样本均值偏差的风险 - 采集更多样本。较大样本集的样本均值将更接近于总体均值。这种被称为中心极限定理的现象表明,如果我们有足够大的样本量,我们所有的样本均值都足够接近总体均值。 中心极限定理 Central Limit Theorem 假设检验 Hypothes...

2019-08-09 10:45:28 476

原创 python 数据分析 _统计常用概念(一)

1. 统计学中常用概念 Mean 均值平均数或算数平均数,常用 Outliers 异常值不适合大多数数据集的值称为异常值 Percentiles 百分数百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数...

2019-08-09 10:44:23 619

原创 python3基础语法——对字典基本操作(创建/添加/修改/复制/取值/删除)

字典是什么?menu = {"oatmeal": 3, "avocado toast": 6, "carrot juice": 5, "blueberry muffin": 2}subtotal_to_total = {20: 24, 10: 12, 5: 6, 15: 18}person = {"name": "Shuri", "age": 18, "siblings": ["T'Ch...

2019-08-08 21:05:43 1642

原创 Pandas的基础操作:合并数据.merge()函数的使用

inner merge——关联列名一致:pd.merge()与dataframe.merge()pd.merge():查找两个DataFrame之间通用的列,然后,将匹配的行组合成新表中的行;除了次之外,每个DataFrame都有自己的merge方法;且当我们需要将两个以上的DataFrame连接在一起时,我们选择这种“链接”方法#两表联合new_df = pd.merge(or...

2019-08-08 21:00:18 2839

原创 Pandas的基础操作:排序/设置行索引

对某列数据进行分析操作dataframe名字.column名字.命令()dataframe名字.groupby(‘column1’).column2.命令()——对column2操作,但是用column1进行分类,返回seriesdataframe名字.groupby(‘column1’).column2.命令().reset_index()——将原本返回的series转换...

2019-08-08 20:59:36 6438

原创 sklearn入门

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~** 上一次总结的是《机器学习概述》:https://mp.csdn.net/mdeditor/98843972#** 下一次会总结《决策树和随机森林》 sklearn是什么?全称为scikit-learn,是一个开源的基于p...

2019-08-08 19:56:01 255

原创 决策树和随机森林

刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~** 上篇《机器学习概述》:https://blog.csdn.net/weixin_42969619/article/details/98843972** 下篇sklearn决策树的类和参数 简述定义决策树(Decision...

2019-08-08 13:40:19 234

原创 机器学习概述

什么是机器学习?一种人工智能,利用算法或逻辑从数据中抽取模型。问题类别把数据拟合成函数或者函数逼近有监督学习在无反馈的情况下给数据分类无监督学习取得最大化的预期利益强化学习有监督学习又称函数逼近,只是简单地给数据匹配一个任意种类的函数。通过现有训练数据进行建模,再用模型对新的数据样本进行分类或回归分析。训练数据集一般包含样本特征变量及分类...

2019-08-08 11:23:18 118

转载 chrome 搜索结果,设置成新标签页打开

输入网址:https://www.google.com.hk/preferences勾选 “结果打开方式”

2019-08-06 15:47:45 2399 2

原创 python3基础语法——对String基本操作(创建/切割/连接)

String 基础内容创建和打印my_name = "Peter"print (my_name)----------------Peter可以当成一个列表,其中列表相关的基础操作详见,list小节// A string can be thought of as a list of charactersmy_name = "Peter"first_initial = m...

2019-06-27 17:31:59 318

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除