大数据开发
对大数据开发学习的总结 hadoop生态圈及应用
Blithe_Lee2
不管生活如何,都要努力去做
展开
-
举例解析 python arg[0] sys.arg[1]等参数意义 附带python合并文件代码
sys.arg[0] sys.arg[1] sys.arg[2]这些参数是什么意思这些参数是我们输入的参数当运行文件的时候 sys.arg是一个参数数组 里面的参数是我们自定义的我们可以传入文件 或者文本参数,情景如下:新建一个python文件 test.pyimport osimport systest = sys.argvprint(test)print len(tes...原创 2019-01-14 13:57:25 · 5044 阅读 · 2 评论 -
linux命令总结
wc -l 文件名 统计文件多少行原创 2019-01-10 21:13:55 · 117 阅读 · 0 评论 -
大数据开发 NLP文本相似度
NLP文本相似度nlp 自然语言处理个体间的相似程度 一般用余弦相似度 个体间的相似程度 一般用余弦相似度表示cosA=a·b/|a|·|b|得到了文本相似度计算的处理流程是:– 找出两篇文章的关键词;– 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合中的词的词频– 生成两篇文章各自的词频向量;– 计算两个向量的余弦相似度,值越大就表示越相...原创 2019-01-10 19:59:00 · 657 阅读 · 0 评论 -
Linux下压缩和解压命令
.tar解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)———————————————.gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName.tar.gz 和 .tgz解压:tar zxvf FileName.ta...原创 2018-11-28 18:43:32 · 174 阅读 · 0 评论 -
Mapreduce 计算框架 功能原理
mapreduce 计算框架 原理分析1. mapreduce是一个海量数据的计算框架 **这个框架解决了以下问题:** 基于一个多线程的模型 区别spark多进程 - 数据分布存储 - 作业调度 - 容错 - 机器间通信 map: 把复杂的问题分解成简单的问题 reduce:2.mapreduce物理配置合适的slot个数-单...原创 2018-11-27 08:44:24 · 507 阅读 · 0 评论 -
大数据架构
层级架构生态Hive (sql引擎)简化工作mahput 也是简化代码库Mapreduce 测重批量 ,是一个计算框架storm 实时计算spark 批量和实时批量处理 spark-core 实时处理stream ,mllib机器学习 sql查询...原创 2018-11-25 14:46:26 · 141 阅读 · 0 评论 -
在centos6.5上hadoop mapreduce 统计英文单词
在centos6.5上mapreduce第一个python简单例子linux上的单词删选实例安装的是centos6.5系统,搭建hadoop集群统计一篇文章中英文单词的数量统计1.txt中单词的数量,新建一个mds目录,把文件移到此目录下 a.写一个shell脚本 新建一个run.sh文件并编辑 HADOOP_CMD=”/usr/local/src/hado...原创 2018-04-10 11:03:00 · 477 阅读 · 0 评论 -
mapreduce深入学习 python入门例程(上)
mapreduce深入学习特定 吞吐能力强 强大数据处理能力 hadoop Streaming 支持java python 等语言透明执行过程 执行流程图 a.数据->map->内存->磁盘小文件(按k排序)->大文件( )File: hdfs的文件切成默认64m的block存储在datanode上##开始map读入: ...原创 2018-04-09 10:32:51 · 275 阅读 · 0 评论 -
vm centos虚拟机设置IP地址
cd /etc/sysconfig/network-scripts/ 进入网络设置目录 [root@localhost network-scripts]# ls ifcfg-eth0 ifdown-isdn ifup-aliases ifup-plusb init.ipv6-global ifcfg-lo ifdown-post ifup-bnep原创 2017-12-11 17:11:37 · 287 阅读 · 0 评论