Python
文章平均质量分 50
dingcheng998
软件工程师
展开
-
python中sklearn的朴素贝叶斯方法(sklearn.naive_bayes.GaussianNB)的简单使用
#测试数据import numpy as npfeatures_train = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])labels_train = np.array([1, 1, 1, 2, 2, 2])#引入高斯朴素贝叶斯from sklearn.naive_bayes import Gaus原创 2017-02-20 19:29:12 · 19018 阅读 · 2 评论 -
Python机器学习库SKLearn的特征选择
参考地址:http://scikit-learn.org/stable/modules/feature_selection.html#feature-selectionsklearn.feature_selection模块中的类可用于样本集中的特征选择/维数降低,以提高估计器的准确度分数或提高其在非常高维数据集上的性能。1.1 删除低方差特征VarianceThreshold是特征翻译 2017-04-30 17:10:38 · 10274 阅读 · 0 评论 -
Python机器学习库SKLearn分类算法之朴素贝叶斯
参考地址:http://scikit-learn.org/stable/modules/naive_bayes.htmlhttp://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNBimport numpy as np原创 2017-04-28 21:38:15 · 1678 阅读 · 0 评论 -
Python机器学习库SKLearn:监督学习之广义线性模型
以下是用于回归的一组方法,其中预期目标值为输入变量的线性组合,在数学概念中,假设{y^}是预测值。其中,向量 w = (w_1,..., w_p) 作为一个 coef_ (系数)and w_0 作为 intercept_(截距)。1.1.1 普通最小二乘法(Ordinary Least Squares)LinearRegression是具有系数w =(w_1,...,w_p翻译 2017-03-16 21:15:30 · 2903 阅读 · 0 评论 -
Python机器学习库SKLearn:数据集转换之特征提取
特征提取:sklearn.feature_extraction模块可以用于从由诸如文本和图像的格式组成的数据集中提取机器学习算法支持的格式的特征。注意:特征提取与特征选择非常不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。 后者是应用于这些特征的机器学习技术。4.2.1 从词典中加载特征类DictVectorizer可用于将表示为标准Python di翻译 2017-03-13 20:35:40 · 21439 阅读 · 0 评论 -
Python机器学习库SKLearn:数据集转换之预处理数据
"""数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据。包含特征提取和标准化。 原因:数据集的标准化(服从均值为0方差为1的标准正态分布(高斯分布))是大多数机器学习算法的常见要求。 如果原始数据不服从高斯分布,在预测时表现可能不好。在实践中,我们经常进行标准化(z-score 特征减去均值/标准差)。"""#数据预处理from翻译 2017-03-12 21:47:59 · 14727 阅读 · 0 评论 -
Python机器学习库SKLearn包含的内容(目录)
#Sklearn学习"""一、机器学习主要分类: 1、预处理 2、模型选择 3、分类 4、回归 5、聚类 6、降维 机器学习主要包含内容: 1、监督学习 1.1 广义线性模型(Generalized Linear Models) 1.2 线性二次判别分析(Linear翻译 2017-03-12 21:42:48 · 2976 阅读 · 0 评论 -
Python机器学习库SKLearn:数据集转换之管道和特征
4.1 管道和特征:组合估计量4.1.1 管道:链接估计管道可以用于将多个估计器链接成一个。 这是有用的,因为在处理数据中经常有固定的步骤序列,例如特征选择,归一化和分类。 管道在这里有两个目的:方便:您只需调用fit和预测一次您的数据,以适应一个完整的估计量序列。联合参数选择:可以一次性在管线中的所有估计量的参数上进行网格搜索。流水线中的所有估计器,除了最后一个,必须是变翻译 2017-03-13 15:32:35 · 3183 阅读 · 0 评论 -
Spark机器学习之特征提取、选择、转换
本节介绍了处理特征的算法,大致分为以下几组: 1、提取:从“原始”数据提取特征 2、转换:缩放,转换或修改要素 3、选择:从一组较大的要素中选择一个子集 4、局部敏感哈希(LSH):这类算法将特征变换的方面与其他算法相结合。1、特征提取1.1 TF-IDF(term frequency–inverse document frequen翻译 2017-03-18 21:10:49 · 12742 阅读 · 0 评论 -
Spark机器学习的数据类型(Python版)
数据类型: 1、局部向量 2、标签点 3、局部矩阵 4、分布矩阵 4.1 RowMatrix 4.2 IndexedRowMatrix 4.3 CoordinateMatrix 4.4 BlockMatrix MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RD翻译 2017-03-12 21:50:15 · 1684 阅读 · 0 评论 -
使用matplotlib画简单的3d图
import matplotlib.pyplot as pltimport numpy as npfrom mpl_toolkits.mplot3d import Axes3D#设置三维坐标fig = plt.figure()ax = Axes3D(fig)#生成数据x = np.linspace(-5,5,200)y = np.linspace(-5,5,200)X,原创 2017-03-07 20:07:34 · 5653 阅读 · 0 评论 -
使用matplotlib画简单的等高线图
import matplotlib.pyplot as pltimport numpy as np#等高线图x = np.linspace(-5,5,200)y = np.linspace(-5,5,200)X, Y = np.meshgrid(x, y)#XY平面的网格数据Z = (1-X/2+X**7+Y**5)*np.exp(-X**2-Y**2)#等高线 cont原创 2017-03-07 19:05:31 · 3548 阅读 · 0 评论 -
使用matplotlib画简单的散点图
import matplotlib.pyplot as pltimport numpy as np%pylab inline #ipython中显示图#散点图n = 512x = np.random.normal(0,1,n)y = np.random.normal(0,1,n)#生成随机颜色co = np.arctan2(x,y)plt.scatter(x,y原创 2017-03-07 16:13:53 · 610 阅读 · 0 评论 -
使用Matplotlib画出线形图的简单教程
# import matplotlib.pyplot as pltimport numpy as np#ipython 画图%pylab inline In [10]:#简单线图 #生成测试数据 x = np.linspace(-1,1,50) y = np.cos(x)#figure创建一个绘图对象 figsize 图片大小p原创 2017-03-06 17:14:37 · 15929 阅读 · 0 评论 -
Spark机器学习之Pipeline(Python)
机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。 它的目标是使实用的机器学习可扩展和容易。它提供了一个高水平的工具,如: ML算法:常见的学习算法,如分类,回归,聚类和协同过滤 特征:特征提取和选择,变换,降维 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法,模型和管道 工具:线性代数,统计,数翻译 2017-03-18 21:08:06 · 6429 阅读 · 0 评论 -
python中sklearn的支持向量机(Support Vector Machines)的说明地址
来源:http://scikit-learn.org/stable/modules/svm.html#support-vector-machines原创 2017-02-21 21:43:43 · 939 阅读 · 0 评论 -
在Jupyter notebook中配置和使用spark
步骤1:安装jupyter 这里安装集成环境包Anaconda下载地址及安装方法:https://www.continuum.io/downloads步骤2:下载spark http://spark.apache.org/ 解压:tar zxvf spark-2.1.0-bin-hadoop2.7.tgz步骤3:配置jupyter登录产生密码:终端输入ipython原创 2017-02-22 19:43:27 · 7913 阅读 · 0 评论 -
使用matplotlib画图的简单封装
import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dimport numpy as np'''设置绘图对象'''def setFigure(size): plt.figure(figsize=size)'''设置标题'''def setTitle(title): plt.t原创 2017-04-21 19:50:54 · 1377 阅读 · 0 评论