大数据开发
Robin_just
这个作者很懒,什么都没留下…
展开
-
Hadoop1.2.1环境搭建
master node1.环境准备nat配置ifconfigcd /etc/sysconfig/network-scripts/vim ifcfg-eth02.vim ~/.bashrcexport JAVA_HOME=/usr/local/src/jdk1.6.0_45export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/libexport PATH=$PATH原创 2017-04-27 15:11:54 · 424 阅读 · 0 评论 -
大数据相关业务
搜索引擎Google三驾马车GFS,MapReduce,Bigtable初衷就是用于搜索领域。1.搜索引擎涉及以下3部分:1).爬虫——数据收集中心,一个互联网世界的缩影 2).索引系统——分析整理爬虫收集到的资源,为检索系统提供数据 3).检索系统——从预处理好的资源里挑选出用户最满意的结果最快最好的展现2.架构图:3.基于MapReduce的建库系统(建库流)• 目的:建立供检索使用的索引和原创 2017-07-29 10:38:24 · 444 阅读 · 0 评论 -
Hadoop2环境搭建
#-Hadoop伪分布模式HDFS+YARN1. 下载 Hadoop2.5.21.1. 在 Apache Hadoop 官网 http://hadoop.apache.org/上下载,点击 Download Hadoop 连接。1.2. 选择 Releases2.5.2 的 Hadoop 。1.3. 点击 binary 链接。1.4. 网站会自动推荐一个镜像站的下载地址。1.5. 复制下载地原创 2017-08-04 18:07:33 · 431 阅读 · 0 评论 -
Hadoop2_mapreduce_wordcount
[root@master mapreduce_wordcount_python]# lsmap.py part-00000 red.py run.sh The_Man_of_Property.txt[root@master mapreduce_wordcount_python]# cat run.shHADOOP_CMD="/usr/local/src/hadoop-2.6.1/bin/原创 2017-08-10 13:26:41 · 504 阅读 · 0 评论 -
NLP_LCS
LCS 作用:• 求两个序列中最长的公共子序列算法 – 生物学家常利用该算法进行基金序列比对,以推测序列的结构、功能和演化过程。 • 描述两段文字之间的“相似度” – 辨别抄袭,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列 外的部分提取出来,该方法判断修改的部分LCS 解决方法:属于动态规划问题 • 使用二维数组C[m,n] • C[i,j]记录序列Xi和Yj的原创 2017-07-07 23:23:02 · 325 阅读 · 0 评论 -
NLP_TFIDF
TF-IDF action on MapReduceIDF actionstep1:Extract article about "it",tatol 508。step2:The 508 articles are pre processed and each article is taken as a line of data and indexed(to be a string),then get原创 2017-07-07 23:25:08 · 1004 阅读 · 0 评论 -
17-04-03 周一 早上八点 storm学习
zookeeper安装example sakesdataDir=/usr/local/src/zookeeper-3.4.5the port at which the clients will connectclientPort=2181server.0=master:8880:7770//8080是内部选主用的server.1=slave1:8881:7771server.2=slave2:8原创 2017-04-23 21:46:10 · 360 阅读 · 0 评论 -
推荐算法——基于(mahout)
Mahout 入门1.解压tar -zxvf 2.配置环境变量set mahout environmentexport MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9export MAHOUT_CONF_DIR=$MAHOUT_HOME/confexport PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:原创 2017-04-23 21:31:59 · 600 阅读 · 0 评论 -
推荐算法原理感悟
推荐算法原理感悟——Content Based利用jieba先对Item分词,然后做出正排表(Item–Feature…);然后给每个Feature打分(TFIDF值),逆序排列;接着做倒排表(map阶段以每个Feature为Key,关联对应的Item,在reduce阶段把Feature值高的对应的Item放在前面,逆序排列);最后,便根据倒排表,对于某个Feature高的Item,给出一个推荐列表原创 2017-07-15 21:53:20 · 552 阅读 · 0 评论 -
中文分词(一)
jieba分词实践用python搭建一个websever,通过调用jieba提供一个分词服务。Code如下#!/usr/bin/pythonimport osimport sysos.system('tar xvzf jieba.tar.gz > /dev/null')reload(sys)sys.setdefaultencoding('utf-8')sys.path.append("./")i原创 2017-05-28 19:59:32 · 1502 阅读 · 0 评论 -
MapReduce Learn Test
What is MapReduce and WhyProcessing PatternHadoopAlgorithms in MapReduceTutorialRemove leading and trailing whitespace #删除前导和尾随空格原创 2017-05-07 19:57:46 · 214 阅读 · 0 评论 -
Distributed File System Learn Test
File system and GFSFile System Implementation and DFSStorage for Big Data Computin_Distribution file systemUnderstanding HDFS using Legos原创 2017-05-07 19:51:28 · 266 阅读 · 1 评论 -
日常小记整理2
-cat只能看明文的数据-text可以看压缩的数据//更新:20170224晚7点 星期五 **对mapreduce输出进行压缩mapred.output.compress=truemapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec**对map输出进行压缩mapred.compress.map.out原创 2017-07-09 00:52:42 · 274 阅读 · 0 评论