自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

黄俊文的博客

科技改变命运

  • 博客(32)
  • 资源 (1)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 python数据分析学习更新目录

为了督促自己不断学习Python和方便资料查看,此问用于文章索引不定期更新。python介绍环境搭建篇python介绍之——学来干嘛?python安装之anacondapandas库python之pandas数据导入...

2018-07-30 11:10:36 691

原创 mysql8.0安装心得win10系统

MySQL-mysql 8.0.11安装教程详细步骤其实安装mysql现在已经很简单了,网上教程一大堆。还容易失败的原因在于各个细节可能没有做好,我今天安装野走了不少弯路,在这里把每步详细说明一下。文章目录1、下载Mysql 8.0.11社区版2、配置系统环境3、安装并启动服务4、安装第三方连接器1、下载Mysql 8.0.11社区版1.1 点击这里8.0.11官网下载地址,你也可以进入...

2019-02-12 19:30:02 401 1

原创 python正则表达式入门教程括号及字符

数据分析遇到字符串处理会有两个阶段涉及到正则表达式,一个是在数据库阶段一个是Python处理阶段。作为一个小白学习正则也遇到很多弯路和难理解的点,今天就梳理梳理学习的过程。hive里面正则表达式可以用regexp_extract()在select里进行返回指定要求的内容,也可以用regexp在where里进行指定要求的限制条件;python里面re.findall()或者df.str.extr...

2019-01-22 15:17:06 2746 1

转载 python主成分分析(PCA)

一、PCA简介1. 相关背景主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一...

2018-12-10 13:32:34 17573

原创 python:matplotlib 箱线图(boxplot)参数及分析详解

python画箱线图boxplot目的是为了方面通过图的形式查看数据分散情况。用matplotlib画箱线图很简单,但是我们更重要的是怎么去看箱线图。文章目录箱线图统计学知识matplotlib画图箱线图箱线图统计学知识上限值:Q1-1.5×IQR上相邻值:距离上限值最近的值须线:上下分位数各自与上下相邻值的距离上四分位数(Q1):一组数据按顺序排列,从小至大第25%位置的数值中位数...

2018-12-06 15:21:03 32441 7

原创 python删除指定列或多列单个或多个内容

在python中进行数据处理,经常会遇到有些元素内容是不需要的。需要进行删除或者替换。本篇就详细探讨一下各种数据类型(series,dataframe)下的删除方法随机创建一个DataFrame数据import pandas as pdimport numpy as npdata=pd.DataFrame(np.random.randint(10,size=(5,3)),columns=[...

2018-12-05 11:44:26 10564

原创 python matplotlib主副坐标轴

在excel画图中经常会使用到两个数据放在一个图上,共用x轴两个y轴分别位于两侧。matplotlib画图针对这种场景需解决方如下:import numpy as npfrom matplotlib import pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus...

2018-11-28 15:00:15 4101

原创 python线性回归欠拟合与过拟合处理

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.pipeline import Pipelinefrom sklearn.preprocessing import PolynomialFeatures,maxabs_scalefrom sklearn.linear_model import LinearRegres...

2018-11-21 10:52:05 1010

原创 Python数据分析--计算函数

本篇记录python下pandas/numpy的数学计算函数(求和、累积、累和、方差、标准差、中位数、整数、平方根、对数、倒数、指数、余数等)、三角函数(正弦、余弦、切线等)pandas函数说明df.sum(axis=0, skipna=True, level=NaN)求和df.add(df2, fill_value=NaN, axist=1)两列元素求和,df....

2018-11-06 13:42:19 3603 2

原创 numpy常用属性使用方法

NumPy是使用Python进行科学计算的基础包,在数据分析的时候比较常用到矩阵计算。这时太多的Np属性不记得,所以方便自己使用把一些常用的Np属性汇总记录一下使用的时候方便查找。文章目录ndarray基础ndarray基础NumPy的数组类被调用ndarray。它也被别名所知 array。请注意,numpy.array这与标准Python库类不同array.array,后者仅处理一维数组...

2018-11-05 00:26:19 520

原创 python转化excel数字日期为标准日期

伙伴遇到一个关于excel导入数据到python中,日期变成数字而不是日期格式的问题。第一反应这个数字应该是excel里面的时间戳类似的,所以我就实验增加一天是不是对应的数字就加1。最后证明了我的想法,这样就可以倒推excel里面的数字日期是从那一年开始计数的。我们先看一下excel本身打开数据的样子:我们再看看python直接导入后日期的样子:那我们的目标就是将字段列名的日期数据替换成...

2018-11-02 16:05:49 17096 1

原创 Python spyder显示不全df列和行

pd.set_option(‘display.max_columns’,500)

2018-10-29 20:36:43 5803 2

原创 Python 查看数据类型与格式

一般我们拿到一个数据,会先看一下这个数据有多少行多少列,各个字段是什么,数据格式类型是什么。在开始讲数据格式前,需要先梳理一下各个数据类型。我们常使用的库一般是numpy和pandas,Numpy下的核心是数组(array,ndarray),Pandas下的核心是数据框(Series,DataFrame)先随机创一点数据用来测试import pandas as pdimport numpy ...

2018-10-28 17:13:47 24909

原创 python 朴素贝叶斯算法

python贝叶斯算法(sklearn.naive_bayes),会通过了解什么是贝叶斯、贝叶斯公式推导、实际案例去讲解。也同时记录学习的过程帮组大家一起学习如果实际应该贝叶斯算法去分析。文章目录贝叶斯解决问题介绍逆向概率例子:贝叶斯公式介绍:贝叶斯解决问题介绍贝叶斯算法是英国数学家贝叶斯(约1701-1761)Thomas Bayes,生前提出为解决“逆概”问题写的一篇文章。“逆概”就是...

2018-10-24 13:15:35 1961

原创 python字符串中引用变量

python字符串中引用(加入)变量并赋值,或者叫python一般场景应用于一段非python语言中需要将Python变量赋值进去进行循环;或者是通过多个字符串进行组合拼接成一段新的字符串。将变量插入到字符串中的方法主要有:1、+加号拼接法;2、%字符赋值法;3、format()函数法一、+拼接法:我们知道+最基本的功能是进行四则运算,比如1+2=3。但是我们如果用拼接的方法那么1+1=11...

2018-10-16 16:15:39 7548

原创 数据分析思路

数据分析是在当今每个企业都所需要涉及的一门学科,数据分析的书随便一搜就会有太多教大家如何的去使用。大致能把搜到的书分为两类:第一类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分我们所购买的书基本都是某一类工具如何使用去进行数据分析,但是看完过后还是不太懂什么是数据分析,应用到实际工作场景中照样很迷茫不知道该如何下手,这是什么原因呢?有的小伙伴会说:我想分析的根本没有数!拿到的这...

2018-09-14 16:08:06 12931 1

原创 python将多个excel合并或拆分

昨天有朋友问我怎么将一个excel工作簿下面的很多个工作表进行合并生成一个表,这篇文章就针对此类场景来进行讨论。如何用python释放双手,提高工作效率!python能合并的不光是excel,还有其他类型的很多文本。今天主要讲excel合并的思路,其他的可以自行尝试。为什么要这么做 有个业务数据是需要多个人每天分工将不同的部分存储到一个sheet里面,那么日积月累就会有很多个sheet。...

2018-09-07 16:13:53 6058 8

原创 机器学习python决策树(tree.DecisionTreeRegressor)算法实例

本文python决策树使用sklearn.tree.DecisionTreeRegressor模型来进行总结。首先我们要了解python机器学习中决策树用来做什么的,然后清楚的知道算法原理,最后才能将决策树算法应用到实际场景当中。 决策树,就是一种把决策节点画成树的辅助决策工具,一种寻找最优方案的画图法。画决策树有三步:第一步,写出你想要实现的目标;第二步,在目标的右侧写出实现这个目标的所有方案...

2018-09-06 17:04:02 11068 7

原创 anaconda-python安装graphviz及报错解决

在使用python进行决策树结果可视化的时候遇到InvocationException: GraphViz’s executables not found,原因是你的电脑还没有装GraphViz这个软件。这个软件安装分两种:1、GraphViz官网下载然后自己配置环境变量;2、使用anaconda安装; 因为一直使用anaconda来进行python,所以本文主要讲anaconda下如何安装。...

2018-09-03 15:42:18 11428 2

原创 python机器学习-线性回归(LinearRegression)算法

用python进行线性回归分析非常方便,如果看代码长度你会发现真的太简单。但是要灵活运用就需要很清楚的知道线性回归原理及应用场景。现在我来总结一下用python来做线性回归的思路及原理。线性回归应用场景线性回归介绍机器学习中的线性回归简单的线性回顾实例线性回归应用场景线性回归介绍——线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系...

2018-08-30 16:11:39 8748 1

转载 python机器学习框架

转载奶爸码农,非常感谢大神分享。原文 随着2016年Alpha Go在围棋击败李世石,2017年初卡内基梅隆大学人工智能系统Libratus在长达20天的鏖战中,打败4名世界顶级德州扑克玩家,这标志着人工智能技术又达到了一个新的高峰。人工智能已经不再是在各大公司幕后提供各种智能推荐、语音识别算法的工具,它已经慢慢走向台前进入到平常百姓的视野之中。曾经有人描述人工智能就向一列缓缓开向人们的火车,一...

2018-08-29 14:32:07 5388

原创 python之matplotlib.pyplot直方图

matplotlib.pyplot直方图画起来还是分成方便的,思路还是准备好数据,然后设置参数即可。反正画直方图比折线图在EXCEL上方便太多了。直方图介绍直方图参数说明官网案例实际案例直方图介绍直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。 直方图是数值...

2018-08-23 18:04:57 14164

原创 python机器学习-k近邻(KNN)算法实例

本篇主要是自己复习和总结机器学习算法中最基础入门的——k近邻(KNN)算法,内容由网上百度与摘抄唐宇迪老师的讲义。k近邻介绍k近邻参数官网例子k近邻实际应用房租价格预测k近邻介绍——K最近邻(k-Nearest Neighbor,KNN),k近邻算法可以应用于分类场景与回归场景,是一个理论上比较不成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如...

2018-08-23 11:55:54 4320

原创 python数据分析——python类似sql用法(四)

pandas在数据处理上有着丰富且高效的函数,我们把数据清理、整理好后,只是一张原始的DataFrame。python也能像SQL一样或者excel里面的voolkup一样将数据进行合并,也能像excel里面的透视表或者sql group by一样进行数据透视组合,也能像excel的查找功能或者sql里面的where功能进行数据筛选。...

2018-08-17 12:39:46 2395

原创 python数据分析——数据运算符(三)

python中的数据是可以直接进行加减乘除这样的四运,也能进行大于等于这种比较运算。今天来给大家介绍一下python运算符及运算语法。算术运算符比较运算符赋值运算符逻辑运算符成员运算符身份运算符运算符优先级算术运算符Python语言支持算术运算符,假设变量a的值是10,变量b的值是21 运算符 描述 实例 + 加 ...

2018-08-14 11:56:21 601

原创 python数据分析——数据清理(二)

上一章给大家介绍了如何查看数据与选取你所需要的数据,这篇给大家介绍一下选择完数据如何对数据进行处理。 往往我们拿到的数据经过查看过都会存在一些不能满足需求的问题,这时就可能需要对原数据进行一些修改与整理。比如:Python字段名修改、列名选择修改、索引重置、异常值替换、数据类型转化、数据组合等。还是主要给大家介绍一下一些常用涉及到的方法,本章结构请见目录:一、清理数据列名修改索引修...

2018-08-11 23:17:10 1685

原创 python数据分析——数据查看与选取(一)

前面已经讲了如何用pandas导入数据,这篇文章就来讲一些常用的数据查看、数据选取。做到了这一步,就可以进行一些快速的描述性分析了!要查看数据与选取数据,我们首先得了解python里数据存储的方式,然后才能进行数据查看、数据选择、数据清洗、数据分析、数据建模等。。 所以本文将分为:数据结构常用查看/选择数据函数函数代码案例 (本文会结合大家常用的excel和sql的思维模式来讲解...

2018-08-08 21:49:33 24731 2

原创 python数据分析学习框架

利用Python进行数据分析学习框架要用Python进行数据分析、机器学习解决实际问题,那么我们该如何去做呢?整个流程的思路:1、思考要分析场景所涉及的数据;2、想办法获取数据(excel、数据库、网页爬虫等);3、数据导入Python(pandas等);4、对数据进行初步观测(pandas/numpy);5、猜测验证假设(pandas/numpy/matplotlib/skleam)那我...

2018-08-05 09:54:28 3726

原创 python之matplotlib.pyplot基础及折线图

不论是数据挖掘还是数据建模,都免不了数据可视化的问题。对于Python来说,Matplotlib是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。-模块引用import matplotlib.pyplot as plt #引用画图库中的pyplot模块-折线条图语法import matplotlib.pyplot as pltdata=...

2018-07-30 11:57:24 10058

原创 python安装之anaconda

python环境安装要使用Python首先得有运行环境对吧,这样才能完成后续的数据分析、机器学习、自动化等等应用场景。python[后面简称py]环境主要受所使用操作系统而环境不同。我主要讲windows下环境如何搭建,MAC自带环境这个就比较简单。我极力推荐使用anaconda来搭建,原因是因为用anaconda实在是太简单和方便了。编译环境与各种py库都已全部安装好了省去了后续很多麻烦,下...

2018-07-29 01:59:26 882 1

原创 python学来干什么?

Python学来干什么,是否有理由坚持学下去?Python可以说是作为非常简单且牛逼的语言,绝对是需要学习的!一、山东省小学六年级的教材中加入了Python的内容;二、是从2018年起,Python也将成为浙江高考的内容之一;三、是计算机二级考试加入了Python科目。连小学生都会了,你还不会是不是有点那个啥。。。。那么我先来说一下Python的应用场景:Web应用开发在大数据,人工智...

2018-07-29 01:01:54 818 1

原创 python之pandas数据导入

pandas数据导入学习python最好的学习方法就是带着自己的工作需求或者目标去学习。pandas库不多介绍,先放一些最基础的内容帮助学习。pandas导入/导出数据是非常方便的,可以快速的导入现在常见的excel、csv、txt,以下就是一些常用的导入数据:pd.read_csv(filename):从CSV文件导入数据 pd.read_table(filename):从限定...

2018-07-19 14:34:27 10689 2

机器学习python决策树(tree.DecisionTreeRegressor)算法实例

机器学习python决策树(tree.DecisionTreeRegressor)算法实例

2018-09-06

?动态字段名

发表于 2017-11-13 最后回复 2018-01-27

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除