2018年05月_不论如何未来很美好

原创 pandas通过loc生成新的列

pandas中一个很便捷的使用方法通过loc、iloc、ix等索引方式，这里记录一下：df.loc[条件,新增列] = 赋初始值如果新增列名为已有列名，则在原来的数据列上改变import pandas as pdimport numpy as npdata = pd.DataFrame(np.random.randint(0,100,40).reshape(10,4),colu...

2018-05-29 21:43:53 6455

原创 python出现This application failed to stat could not find or load the Qt platform plugin "windows"

今天在使用matplotlib进行画图时出现了无法使用图形窗口的问题：This application failed to start because it could not find or load the Qt platform plugin "windows"in "".Reinstalling the application may fix this problem.就是这么个情况。我之...

2018-05-29 14:58:13 28285 56

原创 pandas用groupby后对层级索引levels的处理

层及索引levels，刚开始学习pandas的时候没有太多的操作关于groupby，仅仅是简单的count、sum、size等等，没有更深入的利用groupby后的数据进行处理。近来数据处理的时候有遇到这类问题花了一点时间，所以这里记录以及复习一下：（以下皆是个人实践后的理解）我使用一个实例来讲解下面的问题：一张数据表中有三列（动物物种、物种品种、品种价格），选出每个物种从大到小品种的前两种，最后...

2018-05-27 12:32:23 32671 6

原创 pandas转换int型为str型

今天在数据分析时遇到了一个小问题，这时才发现自己的基础知识真的不牢固，所以这里记录一下解决方法问题：我在处理完数据后得到的是一个列表，其中放入的是很多的元组，这时需要从元组中筛选数据保存为csv文件，但是我的数据都是int型的，所以我简单的使用了一个循环wf.write('{},{}\n'.format(str(item[0][0]),str(item[0][1])))，通过str来转换保存为st...

2018-05-22 22:52:18 29211 5

转载 python的sort、sorted函数

【Python】 sorted函数我们需要对List、Dict进行排序，Python提供了两个方法对给定的List L进行排序，方法1.用List的成员函数sort进行排序，在本地进行排序，不返回副本方法2.用built-in函数sorted进行排序（从2.4开始），返回副本，原始输入不变--------------------------------sorted---------------...

2018-05-22 16:25:26 263

原创 sklearn的predict_proba

发现个很有用的方法——predict_proba今天在做数据预测的时候用到了，感觉很不错，所以记录分享一下，以后可能会经常用到。我的理解：predict_proba不同于predict，它返回的预测值为，获得所有结果的概率。（有多少个分类结果，每行就有多少个概率，以至于它对每个结果都有一个可能，如0、1就有两个概率）举例：获取数据及预测代码：from sklearn.line...

2018-05-22 15:37:02 15579 10

原创 pandas的get_dummies

简单说一下：虚拟变量哑变量 dummy Variable 这三个一个意思。我总结一下我的理解：就是添加原来数据中没有的变量，但是这并不是意味着可以随意添加，应该是根据原来的数据进行转换。例如：将一个变量Embarked，根据它的值（C、Q、S）转换为Embarked_C、Embarked_Q、Embarked_S三个变量（转化后有默认名，也可以利用prefix来自己修改...

2018-05-20 16:22:15 28405 4

转载随机森林（python）

阅读目录1 什么是随机森林？ 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率（oob error） 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容回到顶部1 什么是随机森林？　　作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销...

2018-05-19 16:11:29 3001

转载决策树（python）

决策数(Decision Tree)在机器学习中也是比较常见的一种算法，属于监督学习中的一种。看字面意思应该也比较容易理解，相比其他算法比如支持向量机(SVM)或神经网络，似乎决策树感觉“亲切”许多。优点：计算复杂度不高，输出结果易于理解，对中间值的缺失值不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配的问题。使用数据类型：数值型和标称型。简单介绍完毕，让我们来通过一个例子让决策树“原形毕...

2018-05-19 11:46:43 753

原创 scikit-learn algorithm cheat-sheet（汉化、英文）

汉化版：原始英文版（原图链接）：参考文章连接：https://blog.csdn.net/a790209714/article/details/52708464

2018-05-12 12:01:02 4490 1

原创 scikit-learn用train_test_split随机划分数据集和训练集

train_test_split()函数是用来随机划分样本数据为训练集和测试集的，当然也可以人为的切片划分。优点：随机客观的划分数据，减少人为因素完整模板：train_X,test_X,train_y,test_y = train_test_split(train_data,train_target,test_size=0.3,random_state=5)参数解释：train_data：待划分样...

2018-05-11 15:17:53 17014

转载报告：2018年数据分析师就业前景

目录：数据分析岗位薪水趋势数据分析职位量发展趋势数据分析职位就业指导薪酬—北上深平均月薪10K+薪酬地图：从职位薪水来看，数据分析行业的高薪主要分布在长三角、珠三角和京津地区。北京、上海和深圳的薪水位列第一方阵，均薪在10k+；杭州、宁波和广州位列第二方阵，均薪在9k+；其他沿海及内陆区域中心城市，如南京、重庆、苏州、无锡等位于第三方阵，均薪在8k左右。薪水地图职位量—北京职位量3W+职位量地图：...

2018-05-10 21:53:00 30439 1

原创 python数据处理根据颜色对图片进行分类

前面一篇文章有说过，利用scrapy来爬取图片，是为了对图片数据进行分类而收集数据。本篇文章就是利用上次爬取的图片数据，根据图片的颜色特征来做一个简单的分类处理。实现步骤如下： 1：图片路径添加 2：对比度处理 3：滤波处理 4：数据提取以及特征向量化 5：图片分类处理 6：根据处理结果将图片分类保存代码量中等，还可以更少，只是我为了练习类的使用，而将每个步骤都...

2018-05-10 12:12:29 9936 7

原创 python3中类的继承以及self和super的区别

python中类的继承：子类继承父类，及子类拥有了父类的属性和方法。python中类的初始化都是__init__()。所以父类和子类的初始化方式都是__init__()，但是如果子类初始化时没有这个函数，那么它便调用父类的__init__()；如果实现了这个函数，就会覆盖父类的初始化函数。如果继承父类的__init__()，就需要在子类中显示调用这个函数。实现如下：class Ani...

2018-05-07 17:33:17 8867

原创 python3 scrapy实战（简单实现爬取下载图片原理）

这篇scrapy简单实现爬取并下载图片文章是为了后面一篇图片数据分析文章收集数据，后面我将做一个图片数据分析以及算法，这里顺便在复习一下之前学的scrapy语法以及原理，也是为了做个笔记和分享经验。虽然我之前学过而且这是个简单的scrapy实现，但是编程过程并不是一帆风顺，有的错误还是有必要参考长经验的。前言：个人很喜欢李小冉演的电视剧，最近刚看了《美好生活》，很触动人心，有深度。所以我决定爬点她...

2018-05-06 11:59:47 2790

原创 python时间序列ARIMA的实现及原理（预测茅台股票数据）

ARIMA模型由（AR模型 I差分 MA模型）三部分组合而成。这里我使用scipy库的方法来简单实现，其中的底层代码就不再累述。当然也可以使用ARMA模型，由于ARMA模型需要平稳的时间序列，或者转化为弱平稳时间序列。所以ARMA模型中引入I差分，构成了ARIMA模型。ARIMA模型需要引入三个变量参数p、d、qARIMA模型（可以估计时间的走向的模型）：一：AR模...

2018-05-04 11:30:39 34848 14

昆兰.沃斯的博客