大数据
文章平均质量分 83
vinking9393
乘风破浪会有时,直挂云帆济沧海
展开
-
hadoop实战-06.ubuntu14.0安装hadoop 2.7.1( 3台主机) 小集群
之前配置的是1.0.2,这个版本较老了,所以升级成2.7.1了。大致上两个版本的配置差异不会太大。规划:ubuntu1 172.19.43.178 master,namenode,jobtracker-masterubuntu2 172.19.43.114 slave1,datanode,tasktracker-slave1ubuntu3 172,19.43.98 ...原创 2016-06-24 12:02:57 · 229 阅读 · 0 评论 -
hadoop实战-07.ubuntu14.04安装vsftpd服务
因为从总是要下载东西,虚拟机本身内存有限,所以考虑安装ftp服务,可以往虚拟机上上传文件。 #Ubuntu 安装 vsftpd 服务sudo apt-get updatesudo apt-get install vsftpd安装时老是提示没找到vsftp软件包, 改 gedit /etc/apt/sources.list 或vi /etc/apt/sources....原创 2016-07-17 20:52:05 · 86 阅读 · 0 评论 -
python sklearn-01:机器学习基础
最近对python机器学习有点兴趣,学习之余顺便做下笔记,方便以后查阅。官方文档链接:http://scikit-learn.org/stable/tutorial/YouTube上的一个教程:https://www.youtube.com/playlist?list=PLXO45tsB95cI7ZleLM5i3XXhhe9YmVrRO翻译的一个文章:https://muxuezi...原创 2016-07-27 15:08:18 · 212 阅读 · 0 评论 -
python sklearn-03:特征提取方法基础知识
特征提取方法基础知识,将不同类型的数据转换成特征向量方便机器学习算法研究1.分类变量特征提取:分类数据的独热编码方法,并用scikit-learn的DictVectorizer类实现 2.机器学习问题中常见的文档特征向量:>>1)词库模型将文档转换成词块的频率构成的特征向量,用CountVectorizer类计算基本单词频次的二进制特征向量。>>2)...原创 2016-08-26 17:46:29 · 1373 阅读 · 0 评论 -
python sklearn-04:逻辑回归及其效果评估
scikit-learn官方文档:http://scikit-learn.org/stable/tutorial/译文:https://muxuezi.github.io/posts/4-from-linear-regression-to-logistic-regression.html 目录:1.二元分类: >>逻辑回归 >>网格搜索...原创 2016-10-10 17:42:18 · 3963 阅读 · 0 评论 -
python sklearn-05:决策树及随机森林
1.决策树2.随机森林 1.决策树(decision tree)决策树一种简单的非线性模型,用来解决回归与分类问题。通常是重复的将训练集解释变量分割成子集的过程。决策树的节点用方块表示,用来测试解释变量。每个节点向下的边表示不同决策产生结果。训练集的样本由决策结果分成不同的子集。例如,一个节点测试解释变量的值是否超过的限定值。如果没有超过,则进入该节点的右侧子节点;如果...原创 2016-10-14 15:35:28 · 1087 阅读 · 0 评论 -
python sklearn-06:聚类-k-means
聚类是用于找出不带标签数据的相似性的算法。 译文链接:https://muxuezi.github.io/posts/6-clustering-with-k-means.html1.K-Means算法由于具有出色的速度和良好的可扩展性,K-Means聚类算法算得上是最著名的聚类方法。K-Means算法是一个重复移动类中心点的过程,把类的中心点,也称重心(centroids),移...原创 2017-02-13 16:17:58 · 832 阅读 · 0 评论 -
python基础学习:读取excel文件
原文链接:http://www.jb51.net/article/42635.htm 1.读取Excel(需要安装xlrd):#-*- coding: utf8 -*-import xlrd fname = "reflect.xls"bk = xlrd.open_workbook(fname)shxrange = range(bk.nsheets)try:...原创 2017-02-14 14:28:29 · 227 阅读 · 0 评论 -
python sklearn-07:降维-PCA
链接:https://muxuezi.github.io/posts/7-dimensionality-reduction-with-pca.html官网链接:1.PCA:PCA(principal component analysis,主成分分析):主要解决三类问题:1.降维可以缓解维度灾难问题;2.降维可以在压缩数据的同时让信息损失最小化;3.理解几百个维度的数据结...原创 2017-02-15 16:02:55 · 437 阅读 · 0 评论