大数据
也许我太傻
一步一印,才能看到自己想要的风景。
展开
-
Hadoop简单了解
Hadoop是一个开源、高可靠、可扩展的分布式计算框架,主要用来解决海量数据的存储(HDFS)、海量数据的分析(MapReduce)、分布式资源调度(Yarn)等。Hadoop可以用于日志分析、基于海量数据的在线应用、推荐系统、计算广告、复杂算法、网盘和搜索引擎等。Hadoop的起源是Lucence,Lucence是用java编写的,用于实现和Google类似的全文检索功能,Hadoop是2005...转载 2018-06-23 17:00:18 · 559 阅读 · 0 评论 -
大数据学习路线
java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,spark,spark core,spark...转载 2018-06-23 17:14:47 · 266 阅读 · 0 评论 -
大数据中的一些名词
TF(Term Frequency) 表示某个关键词在整篇文章中出现的频率。 IDF(InversDocument Frequency) 表示计算倒文本频率。文本频率是指某个关键词在整个语料所有文章中出现的次数。倒文档频率又称为逆文档频率,它是文档频率的倒数,主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。 ...原创 2018-06-26 15:36:51 · 1104 阅读 · 0 评论