机器学习/大数据
文章平均质量分 77
lsdnh521
这个作者很懒,什么都没留下…
展开
-
Python实现文件夹深度优先遍历
import osdef dfs_myDir(path, printDir = None, printFile = None): stack = [] ret = [] stack.append(path) while len(stack) > 0: tmp = stack.pop(len(stack) - 1) if(os.pa原创 2015-10-01 22:58:00 · 2815 阅读 · 0 评论 -
MapReduce实现单表关联(微博关注推荐)
利用MapReduce实现单表关联比多表关联稍微复杂一些。例如有如下一个文件,两列数据:followed following1 22 35 77 6followed是被关注者,following是关注者,如果将其看做是一个简单的微博关注关系,我们可以从中看出,3关注了2,2关注了1,那么我们可以向3推荐1,因为1是3的偶像的偶像;6关注了7,7关注了5,则5是6的偶像的原创 2015-12-06 17:19:35 · 611 阅读 · 0 评论 -
ubuntu上搭建eclipse下hadoop-2.7.1集群(全分布式)开发环境遇到的几个问题笔记
花了两天的时间终于把eclipse-Hadoop的开发环境建立起来了,中间也遇到了很多问题,有十分崩溃的时候,不过庆幸最后问题也都解决了.第一天晚上熬夜到四点解决问题遇到坎之后真心是痛恨程序员这个职业啊,不过最后将WordCount跑起来之后还是相当开心的。功夫不负苦心人!下面讲一下自己遇到的几个虐心的问题以及解决方法,望给遇到相似问题的人提供一下参考。问题1:Hadoop在安原创 2015-11-14 20:01:11 · 655 阅读 · 0 评论 -
MappReduce实现大小排序
Mapreduce中的默认排序规则是按照key值进行的,如果key为封装Int的IntWritable类型,那么MapReduce按照数字大小进行排序,如果key是封装String的Text类型,那么map reduce按照字典顺序进行排序。Reduce自动排序的数据仅仅是发送到自己所在节点的数据,使用默认排序的时候并不能保证全局的顺序,这是因为在排序之前还有一个partition的过程,默认无法原创 2015-12-06 21:27:33 · 796 阅读 · 0 评论 -
Hadoop实现多表关联
对于用Hadoop实现多表关联的算法,在理解mapreduce编程模型的基础上,实现起来并不难!如下有两个文件:分别为factory.txt和addressID.txtfactoryname addressedBeijing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1Guangzhou Develop原创 2015-12-06 16:58:29 · 1043 阅读 · 0 评论 -
利用2分K均值算法对出租车地理坐标进行聚类
待处理数据结构类似如下:39.894330 116.44768040.016880 116.46212039.889290 116.38093039.917070 116.41138039.830730 116.38538039.931440 116.14431039.934130 116.37555039.905730 116.43774039.919210 116.2475原创 2015-12-22 23:48:03 · 1638 阅读 · 1 评论 -
利用svd进行用户商品推荐的小实践
from numpy import *from numpy import linalg as ladef ecludSim(inA, inB): return 1.0/(1.0+ la.norm(inA - inB))def cosSim(inA, inB): num = float(inA.T*inB) denom = la.norm(inA)*la.norm(原创 2015-12-21 01:08:12 · 1028 阅读 · 0 评论 -
机器学习笔记之Logistic回归算法实践
根据《机器学习实战》这本书的讲法,训练集选择了299条病马的特征数据,每一条一共有22项,前21项为马的相应特征,最后第22项为马最终是否存活。测试集一共有67条数据,最终进行10次计算后平均错误率在38%左右。def stocGradAscent1(dataMatrix,classLabels,numIter = 150): #随机梯度上升算法 m,n = shape原创 2015-11-25 19:45:42 · 704 阅读 · 0 评论 -
Python利用遗传算法解决八皇后问题
python 遗传算法 求解八皇后问题原创 2015-10-01 22:55:38 · 5683 阅读 · 0 评论 -
各种编程语言的深度学习库收集整理
转载出处:各种编程语言的深度学习库收集整理PythonTheano is a python library for defining and evaluating mathematical expressions with numerical arrays. It makes it easy to write deep learning algorithms i转载 2015-09-16 13:31:49 · 1103 阅读 · 0 评论 -
Python贝叶斯算法进行情感分析
from __future__ import divisionimport refrom numpy import ones, arrayfrom numpy.lib.scimath import logfrom nltk import *def loadDataSet(): pos=open("pos_train.txt",'r') neg=open("neg_tra原创 2015-10-01 23:03:06 · 4538 阅读 · 0 评论 -
Python贝叶斯算法进行文本主客观分析(采用文本双词模型)
from __future__ import divisionimport refrom numpy import ones, arrayfrom numpy.lib.scimath import logfrom nltk import *def loadDataSet(): obj=open("obj_train_data.txt",'r') sbj=open("sb原创 2015-10-01 23:05:48 · 1419 阅读 · 0 评论 -
关于云计算架构设计的几点注意事项
安全模块*1 身份的控制在服务器上系统进行配置,系统对用户登录时,采用受安全中心管理控制的口令和令牌。使用两种或两种以上的组合验证机制对用户进行识别,对鉴别数据进行保密性和完整性保护。*2 针对不同的服务器,用不同的防火墙,看题目怎么给。*3 在 中心的数据库区域 和 Internet 之间加入一层 过渡网段。 防外网的渗透。。4 防DDOS攻击原创 2017-05-20 02:16:11 · 1414 阅读 · 0 评论