![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 73
初夏11
机器学习小白
展开
-
spark下的分词--spark+jieba
在网上找到的相关的spark程序都是spark自带的实例,或者没有python相关的代码,根据自己业务上的使用与调研,现在把涉及的spark相关的程序给介绍一下:首先1.spark下的切词。对于我这个spark小白来说,切词对我都是挺难的,因为没找到相关的实例。其实spark下是可以直接调用一下结巴jieba切词的。只不过格式要换一下。现在上一下代码:split_jieba2.py原创 2016-05-05 11:02:35 · 10795 阅读 · 4 评论 -
sklearn基础知识-准备阶段
6.标签特征二元化处理分类变量还有另一种方法,不需要通过OneHotEncoder,我们可以用LabelBinarizer。这是一个阈值与分类变量组合的方法。In [1]:from sklearn import datasets as diris = d.load_iris()target = iris.targetHow to do it...导入La转载 2016-04-11 19:42:19 · 4737 阅读 · 0 评论 -
基于scikit-learn(sklearn)做分类--2.分类
上一步对文本进行了切词,下一步就是进行了分类://这里有个问题是,假如用predict_proba()这个函数的时候,可以得到一篇文章属于一个类并得到属于这个类的概率,返回一个列表,而predict()这个函数只能得到文本最应该属于的那个类,只能返回一个类。同时,对于给予中文类别,那么返回的可能是数字类别,现在没有找到中文类别和数字类进行对应的函数,于是直接自己把类别和数字进行对应,返回的类别原创 2016-04-27 17:17:31 · 4788 阅读 · 0 评论 -
基于sklearn的例子-准备阶段
Getting readyscikit-learn的内置数据库在datasets模块里。用如下命令导入:In [1]:from sklearn import datasetsimport numpy as np在IPython里面运行datasets.*?就会看到data转载 2016-04-11 16:13:37 · 3318 阅读 · 0 评论 -
第三章:WORKING WITH TEXT DATA
这一章是完整的进行一个数据挖掘的过程:在这一章中,学习1,如何加载一个文件组件和分类,2,抽取特征向量,3,训练一个线性模型,4使用网格搜索调优。3.2 加载一个20新闻组数据20,000 newsgroup documents, >>>categories =['alt.atheism','soc.re翻译 2016-04-11 13:38:42 · 513 阅读 · 0 评论 -
第二章 scikit-learn 统计学习中数据处理
2.1 统计学习 关于统计量和配置2.11 数据集 >>>fromsklearnimportdatasets>>>iris =datasets.load_iris()>>>data =iris.data>>>data.shape 显示数据量和特征维度这个是二维度数组作为特征的情况。>>>翻译 2016-04-10 00:27:41 · 971 阅读 · 0 评论 -
yarn
Yarn设计的初衷就是为了在同一套集群上面跑不同的应用框架,不同的分布式框架各有优势,针对的业务场景是不一样的。MapReduce能更好的处理大批量的ETL业务而Spark则相对更为专注于Machine Learning。对于公司而言,这些业务如果能在同一集群上面跑则能有效降低成本。要允许不同框架同时运行在同一集群,最首要解决的问题就是如何分配资源。在没有Yarn的转载 2016-04-13 18:32:02 · 809 阅读 · 0 评论 -
pyspark的初始调用
1,直接进入pyspark进行命令行代码a.首先查看pyspark的安装目录$SPARK_HOME b.对于pyspark,打开文件的路径有两种,默认是从hdfs读取文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读 本地文件读取 sc.textFile("路径").在路径前面加上 file转载 2016-04-12 18:31:55 · 5936 阅读 · 0 评论 -
scikit-learn介绍
上一章主要介绍了几个python 常用的机器学习包。这一章主要介绍scikit-learn相关的内容,这个机器学习包官方文档介绍比较详细,不过都是英文版的介绍。下面要具体的分几章进行介绍。第1章,机器学习基础,将机器学习定义成一种通过学习经验改善工作效果的程序研究与设计过程。第2章,线性回归,介绍线性回归模型,一种解释变量和模型参数与连续的响应变量相关的模型。通过最小二乘法求解模型参数获得转载 2016-04-07 23:17:09 · 480 阅读 · 0 评论 -
spark机器学习-前言
MapReduce有其严重的缺点,如启动任务时的高开销、对中间数据和计算结果写入磁盘的依赖。这些都使得Hadoop不适合迭代式或低延迟的任务。Apache Spark是一个新的分布式计算框架,从设计开始便注重对低延迟任务的优化,并将中间数据和结果保存在内存中。Spark提供简洁明了的函数式API,并完全兼容Hadoop生态系统。Spark还提供针对Scala、Java和Python语言的原转载 2016-04-12 09:53:06 · 505 阅读 · 0 评论 -
python 的机器学习库
现在想系统的学习一下机器学习的方法,首先想从关于python的机器学习库开始。关于python 的机器学习库,有一些常见的,用的最多的也许是scikit吧,后期继续调研。Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:强大的N维数组对象Array;比较成熟的函数库;SciPy是一个开源的Python算法库和翻译 2016-04-07 23:01:05 · 854 阅读 · 0 评论 -
LearningToRank
转载http://itindex.net/detail/44310-learning-rank1.现有的排序模型主要可以分为以下两类:相关度排序模型和重要性排序模型。1.1 相关度排序模型(Relevance Ranking Model) 相关度排序模型根据查询和文档之间的相似度来对文档进行排序。常用的模型包括:布尔模型(Boolean Model转载 2015-05-25 09:52:24 · 482 阅读 · 0 评论 -
mac安装 tensorflow以及出现numpy.core.multiarray failed to import问题
安装tensoflow问题,sudo pip install --upgrade https://storage.googleapis.com/tensorflow/mac/tensorflow-0.8.0-py2-none-any.whl安装完后,import tensorflow 会出现 numpy.core.multiarray failed to import问题这是由原创 2016-09-13 14:18:30 · 7322 阅读 · 0 评论