Python数据分析与挖掘
ReddyGo
认真写博客
展开
-
Ubuntu14.04 LTS(64bit)彻底解决matplotlib中文乱码问题
问题描述: matplotlib生成图型中汉字变为方框转载:https://blog.csdn.net/dgatiger/article/details/50414549亲测第二种解决方法,可用。一,三方法没试1.环境查看a.系统版本查看liu@liu-virtual-machine:~/liu/resource/chapter3/demo/code$ cat /etc/os-re...转载 2018-07-22 17:10:18 · 428 阅读 · 0 评论 -
数据清洗-拉格朗日插值
代码源于: Python数据分析与挖掘实战2015/2/21数据异常+2015/2/14数据缺失,通过拉格朗日插值法填加数据代码如下:# -*- coding: utf-8 -*-import pandas as pdfrom scipy.interpolate import lagrange #导入拉格朗日插值函数inputfile = '../data/ca...原创 2018-07-30 21:13:52 · 933 阅读 · 0 评论 -
Pandas列小数转化为百分数
#-*- coding: utf-8 -*-import pandas as pdinputfile = '../data/electricity_data.xls'outputfile = './electricity_data_analyze1.xls'data = pd.read_excel(inputfile)data[u'线损率'] = (data[u'供入电量']-d...原创 2018-08-04 13:40:17 · 45010 阅读 · 5 评论 -
Pandas列百分数转化为小数
#-*- coding: utf-8 -*-import pandas as pdinputfile = './electricity_data_analyze.xls'outputfile = './electricity_data.xls'data = pd.read_excel(inputfile)data[u'线损率'] = data[u'线损率'].str.strip(...原创 2018-08-04 13:52:01 · 10471 阅读 · 0 评论 -
IndexError:boolean index did not match indexed array along dimension 0
转自:https://blog.csdn.net/pcy1127918/article/details/79975152IndexError: boolean index did not match indexed array along dimension 0; dimension is 8 but corresponding boolean dimension is 7在学习回归算法...转载 2018-08-06 21:53:18 · 6826 阅读 · 0 评论 -
Keras报错:`Dense` can accept only 1 positional arguments ('units',), but you passed the followin.....
修改如下:model.add(Dense(input_dim=3, output_dim=10)) #添加输入层(3节点)到隐藏层(10节点)的连接model.add(Dense(input_dim=10, output_dim=1)) #添加隐藏层(10节点)到输出层(1节点)的连接...原创 2018-08-11 17:27:14 · 2565 阅读 · 0 评论 -
PyCharm快捷键——搜索/替换快捷键
转载自:https://blog.csdn.net/haiyang_duan/article/details/79078205搜索/替换快捷键序号 快捷键 作用 1 CTRL + F 查找 2 F3 查找下一个 3 SHIFT + F3 查找上一个 4 CTRL + R 替换 5 CTRL + SHIFT...转载 2018-08-07 19:37:48 · 737 阅读 · 0 评论 -
pycharm 快捷键2
转自:https://www.cnblogs.com/zhangpengshou/p/3555767.html提示CTRL Q: 在参数列表位置,显示可以输入的所有参数。CTRL Q: 查看选中方法的文档字符串阅读CTRL -: 折叠当前代码CTRL +: 展开当前代码CTRL SHIFT -: 折叠所有代码CTRL SHIFT +: 展开所有代码CTRL SHIFT F7:...转载 2018-08-07 20:14:13 · 202 阅读 · 0 评论 -
数据挖掘-分类与预测-神经网络算法
代码来源:Python数据分析与挖掘实战# -*- coding: utf-8 -*-# 使用神经网络算法预测销量高低import sysreload(sys)sys.setdefaultencoding('utf-8') #导入sys,重新设置编码格式主要是为了解决执行代码报:UnicodeDecodeError: 'ascii' codec can't decode by...原创 2018-08-12 18:57:18 · 3442 阅读 · 0 评论 -
数据建模-聚类分析-K-Means算法
常用聚类方法 类别 包括主要算法 划分(分裂)方法 K-Means算法(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(基于选择的算法) 层次分析方法 BIRCH算法(平衡迭代规约和聚类)、CURE算法(代表点聚类)、CHAMELEON算法(动态模型) 基于密度的方法 DBSCAN算法(基于高密度连接区域)、DENCLUE(密度分布函数...原创 2018-08-17 21:53:23 · 9269 阅读 · 0 评论 -
数据建模-聚类分析-K-Means算法 --聚类可视化工具TSNE
使用TSNE口可视化工具显示 数据建模-聚类分析-K-Means算法 #-*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')import pandas as pdfrom sklearn.cluster import KMeansinputfile = '../data/cons...原创 2018-08-18 16:46:11 · 4080 阅读 · 1 评论 -
numpy常用函数(更新中)
array() np.array([1, 2, 3]): 创建一维数组,可执行切片、取最小值、排序等 [2 0 1 5] np.array([[2, 0, 1, 5], [1, 2, 3, 4]]): 创建二维数组 [[2 0 1 5] [1 2 3 4]] linspace(start, stop, num=50); 轴自变量范围,num表示从start到...原创 2018-09-05 21:15:43 · 329 阅读 · 0 评论 -
scipy常用函数(更新中)
from scipy.optimize import fsolve def f(x): #定义要求解的方程组 x1 = x[0] x2 = x[1] return [2*x1-x2**2-1, x1**2-x2-2] result = fsolve(f, [1, 2]) #求解方程组的函数,f表示方程组函数,[1, 1]表示x ...原创 2018-09-05 21:16:52 · 2542 阅读 · 0 评论 -
matplotlib常用函数(更新中)
pyplot: import matplotlib.pyplot as plt plt.figure(figsize=(8, 3)) #设置图像大小 plt.plot(x, y, 'b--', label='$\sinx + 1$', color='red', linewidth=2) #作图,设置线条颜色与格式、标签注释、线条颜色、线条大小 plt.xlabel('Ti...原创 2018-09-05 21:18:11 · 338 阅读 · 0 评论 -
pandas常用函数(更新中)
Series() #创建序列,类似一维数组,是pandas的基本数据结构 s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) #创建一个序列s,每个Series都会带有一个对应的index,用来标记不同的元素,index的内容不一定是数字,也可以是字母,中文等 print(s) a 1 b 2 ...原创 2018-09-05 21:20:20 · 432 阅读 · 0 评论 -
Pandas: 使用read_excel、describe、loc方法求极差、变异系数与四分位数间距
极差:最大值-最小值变异系数:标准差/平均数四分位间距:QU上四分位-QL下四分位# -*-coding: utf-8 -*-import pandas as pdinit_data = './data/init_data_summary.xls'data = pd.read_excel(init_data, index_col=u'序列号') #读数据,以序列号做为索引...原创 2018-07-22 14:38:41 · 7675 阅读 · 0 评论 -
matpltlib.pyplot绘制饼图
代码来源:Python数据分析与挖掘实战#-*- coding: utf-8 -*-import matplotlib.pyplot as pltlabels = 'Frogs', 'Hogs', 'Dogs', 'Logs' #定义标签sizes = [15, 30, 45, 10] #定义每一块的比例colors = ['yellowgreen', 'gold',...原创 2018-07-26 21:08:19 · 319 阅读 · 0 评论 -
数据分析知识储备
所以你想要进入这个领域,需要至少经过以下五个阶段的学习。 第一阶段:数学高等数学/线性代数/概率论 第二阶段:编程python工具库实战/python网络爬虫 第三阶段:机器学习机器学习入门/机器学习提升 第四阶段:数据挖掘实战数据挖掘入门/数据分析实战 第五阶段:深度学习深度学习网络与框架/深度学习项目实战...转载 2018-06-23 16:12:54 · 662 阅读 · 0 评论 -
python之matplotlib详解
参考matplotlib-绘制精美的图表 matplotlib.pyplot.plt参数介绍 12345678 import matplotlib.pyplot as pltlabels='frogs','hogs','dogs','logs'sizes=15,20,45,10colors='yellowgreen','gold','l...转载 2018-07-23 21:48:28 · 1143 阅读 · 0 评论 -
Anaconda安装(ubuntu 14.04.03 LTS 64bit)
Anaconda:用于科学计算的Python发行版本1.下载网站: https://www.anaconda.com/download/#linux 选择64-Bit(x86) Installer (603 MB) 下载后的文件: Anaconda2-5.2.0-Linux-x86_64.sh2.将下载后的文件拷贝到Ubuntu /home/liu目录下3.l...原创 2018-07-13 21:11:09 · 243 阅读 · 0 评论 -
matplotlib+numpy绘制二维条形直方图
代码源于: Python数据分析与挖掘实战随机生成有1000个元素的服从正态分布的数组,分成10组绘制直方图#-*- coding: utf-8 -*-import matplotlib.pyplot as pltimprot numpy as npx = np.random.randn(1000) #1000个服从正态分布的随机数plt.hist(x, 10) ...原创 2018-07-29 11:19:28 · 3401 阅读 · 0 评论 -
numpy+pandas+matplotlib画箱形图
代码源于: Python数据分析与挖掘实战绘制样本数据的箱形图,样本由两组正态分布的随机数据组成。其中,一组数据均值为0,标准差为1,另一组数据均值为1,标准差为1#-*- coding: utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltx = np.random.ran...原创 2018-07-29 13:49:45 · 1484 阅读 · 0 评论 -
numpy+pandas+matplotlib绘制对数函数图形
代码来源: Python数据分析与挖掘实战对x轴(y轴)使用对数刻度(以10为底),y轴(x轴)使用线性刻度,进行plot函数绘图对数:如果a的x次方等于N(a>0,且a不等于0),那么数x叫做以a为底N的对数(logarithm),记作x=logaN,其中a叫做对数的底数,N叫做真数#-*- coding: utf-8 -*-import matplotlib.pyplo...原创 2018-07-29 15:34:48 · 8341 阅读 · 0 评论 -
numpy+pandas+matplotlib绘制误差条形图
代码源于:Python数据分析与挖掘实战绘制误差棒图:#-*- coding: utf-8 -*-import matplotlib.pyplot as pltimport numpy as npimport pandas as pdplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode...原创 2018-07-29 17:06:26 · 3436 阅读 · 0 评论 -
《Python数据分析常用手册》NumPy和Pandas
转自:https://blog.csdn.net/fu6543210/article/details/80508182《Python数据分析常用手册》NumPy和Pandas 1.NumPy NumPy是高性能科学计算和数据分析的基础包。部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数...转载 2018-07-29 17:12:33 · 284 阅读 · 0 评论 -
numpy.exp()简单理解
exp:高等数学里以自然常数e为底的指数函数numpy.exp():返回e的幂次方,e是一个常数为2.71828import numpy as npa = 1print np.exp(a)a = 2print np.exp(a)结果:2.718281828467.38905609893np.exp(1) 为自身np.exp(2) 为平方...转载 2018-07-29 14:44:19 · 82985 阅读 · 0 评论 -
numpy版本查询
import numpy as npprint(np.version.version) #输出numpy版本号原创 2018-07-29 14:36:39 · 4520 阅读 · 1 评论 -
Python数据挖掘与分析常用库官方文档
Pandas 强大、灵活的数据分析和探索工具:http://pandas.pydata.org/pandas-docs/stable/index.htmlKeras 深度学习库,用于建立神经网络以及深度学习模型:https://keras.io/zh/Matplotlib 强大的数据可视化工具、作图库:https://matplotlib.org/Sklearn 支持回归、分类、聚类等...原创 2018-07-21 15:21:03 · 651 阅读 · 0 评论 -
Pandas+Matplotlib 箱式图异常值分析
# -*- coding: utf-8 -*- import pandas as pdimport matplotlib.pyplot as plt catering_sale = '../data/catering_sale.xls'data = pd.read_excel(catering_sale, index_col=u'日期') #指定日期列为索引,data类型为Dat...原创 2018-07-21 16:13:33 · 3489 阅读 · 0 评论 -
numpy+matplotlib绘制正弦曲线
代码源于:Python数据分析与挖掘实战#-coding: utf-8 -*-import numpy as npimport matplotlib.pyplot as pltx = np.linspace(0, 2*np.pi, 50) #x坐标输入,50表示在0-2pi之间显示50个点y = np.sin(x) #计算对应x的正弦值plt.plot(x, y,...原创 2018-07-26 20:03:19 · 7155 阅读 · 0 评论 -
sklearn常用函数(更新中)
from sklearn.linear_model import LinearRegression #导入线性回归模型 model = LinearRegression() print(model) LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False) sklearn模...原创 2018-09-05 21:21:16 · 1398 阅读 · 0 评论