python
文章平均质量分 66
初夏11
机器学习小白
展开
-
编辑距离 python
的编辑距离来求,然后说了一下怎么实现def leven(a,b): if len(a) > len(b): a,b = b,a if len(a) == 0 : return len(b) else: return len(a)原创 2015-05-25 11:27:43 · 789 阅读 · 0 评论 -
mac安装 tensorflow以及出现numpy.core.multiarray failed to import问题
安装tensoflow问题,sudo pip install --upgrade https://storage.googleapis.com/tensorflow/mac/tensorflow-0.8.0-py2-none-any.whl安装完后,import tensorflow 会出现 numpy.core.multiarray failed to import问题这是由原创 2016-09-13 14:18:30 · 7344 阅读 · 0 评论 -
python—解决“Unable to find vcvarsall.bat”错误
[python安装目录]Lib/distutils/msvc9compiler.py修改MSVCCompiler函数:vc_env = query_vcvarsall(VERSION, plat_spec)为:vc_env = query_vcvarsall(12.0, plat_spec)12.0改成你安装的msvs对应的版本号补充:m翻译 2016-08-11 00:14:12 · 392 阅读 · 0 评论 -
sklearn基础知识-准备阶段
6.标签特征二元化处理分类变量还有另一种方法,不需要通过OneHotEncoder,我们可以用LabelBinarizer。这是一个阈值与分类变量组合的方法。In [1]:from sklearn import datasets as diris = d.load_iris()target = iris.targetHow to do it...导入La转载 2016-04-11 19:42:19 · 4778 阅读 · 0 评论 -
基于scikit-learn(sklearn)做分类--3.优化--保存模型
上一章主要是讲了分类的过程,这一章主要是讲一些优化问题主要是对于训练的模型,要保存下结果,而不用重复的训练.import split_jieba2from sklearn.externals import joblibdef train(): tfidf_train_2 = tv.fit_transform(train_data);原创 2016-04-27 17:25:15 · 3865 阅读 · 0 评论 -
基于scikit-learn(sklearn)做分类--2.分类
上一步对文本进行了切词,下一步就是进行了分类://这里有个问题是,假如用predict_proba()这个函数的时候,可以得到一篇文章属于一个类并得到属于这个类的概率,返回一个列表,而predict()这个函数只能得到文本最应该属于的那个类,只能返回一个类。同时,对于给予中文类别,那么返回的可能是数字类别,现在没有找到中文类别和数字类进行对应的函数,于是直接自己把类别和数字进行对应,返回的类别原创 2016-04-27 17:17:31 · 4803 阅读 · 0 评论 -
基于sklearn的例子-准备阶段
Getting readyscikit-learn的内置数据库在datasets模块里。用如下命令导入:In [1]:from sklearn import datasetsimport numpy as np在IPython里面运行datasets.*?就会看到data转载 2016-04-11 16:13:37 · 3371 阅读 · 0 评论 -
第三章:WORKING WITH TEXT DATA
这一章是完整的进行一个数据挖掘的过程:在这一章中,学习1,如何加载一个文件组件和分类,2,抽取特征向量,3,训练一个线性模型,4使用网格搜索调优。3.2 加载一个20新闻组数据20,000 newsgroup documents, >>>categories =['alt.atheism','soc.re翻译 2016-04-11 13:38:42 · 532 阅读 · 0 评论 -
第二章 scikit-learn 统计学习中数据处理
2.1 统计学习 关于统计量和配置2.11 数据集 >>>fromsklearnimportdatasets>>>iris =datasets.load_iris()>>>data =iris.data>>>data.shape 显示数据量和特征维度这个是二维度数组作为特征的情况。>>>翻译 2016-04-10 00:27:41 · 989 阅读 · 0 评论 -
pyspark的初始调用
1,直接进入pyspark进行命令行代码a.首先查看pyspark的安装目录$SPARK_HOME b.对于pyspark,打开文件的路径有两种,默认是从hdfs读取文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读 本地文件读取 sc.textFile("路径").在路径前面加上 file转载 2016-04-12 18:31:55 · 5963 阅读 · 0 评论 -
scikit-learn介绍
上一章主要介绍了几个python 常用的机器学习包。这一章主要介绍scikit-learn相关的内容,这个机器学习包官方文档介绍比较详细,不过都是英文版的介绍。下面要具体的分几章进行介绍。第1章,机器学习基础,将机器学习定义成一种通过学习经验改善工作效果的程序研究与设计过程。第2章,线性回归,介绍线性回归模型,一种解释变量和模型参数与连续的响应变量相关的模型。通过最小二乘法求解模型参数获得转载 2016-04-07 23:17:09 · 496 阅读 · 0 评论 -
第一章 sklearn 介绍
机器学习问题分为监督学习和非监督学习,监督学习分为分类和回归。非监督学习包含一些聚类问题。scikit-learn 包含一些标准数据集,如 iris and digits datasets 用于classification , bostonhouse prices dataset 用于回归。1.2 加载数据集>>> from sklearn impo翻译 2016-04-08 10:57:37 · 561 阅读 · 0 评论 -
python 的机器学习库
现在想系统的学习一下机器学习的方法,首先想从关于python的机器学习库开始。关于python 的机器学习库,有一些常见的,用的最多的也许是scikit吧,后期继续调研。Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:强大的N维数组对象Array;比较成熟的函数库;SciPy是一个开源的Python算法库和翻译 2016-04-07 23:01:05 · 886 阅读 · 0 评论 -
matplotlib不显示中文问题
1.下载simheihttps://www.fontpalace.com/font-download/SimHei/2.下载的simhei放到..../matplotlib/mpl-data/fonts/ttf/目录下3.删除~/.cache/matplotlib的缓冲目录4.代码中添加:matplotlib.rcParams['font.sans-serif'] = ['S...原创 2019-01-23 14:16:41 · 472 阅读 · 0 评论