![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据和机器学习
okiwilldoit
这个作者很懒,什么都没留下…
展开
-
Hadoop HDFS分布式环境搭建
一. HDFS简介全称 Hadoop Distributed File System, Hadoop分布式文件系统。 根据Google的GFS论文,由Doug Cutting使用JAVA开发的开源项目。HDFS是Hadoop项目的一部分。为Hadoop提供底层的数据存储,满足上次各种实际应用使用(如Map/Reduce)。HDFS是典型的的Master/Slave集群架构,由一个NameNode和多原创 2017-08-07 17:29:36 · 309 阅读 · 0 评论 -
Hive和HBase基础
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。首先介绍一下Hive和hbase的区别:1. 两者分别是什原创 2016-06-28 14:08:43 · 375 阅读 · 0 评论 -
Hadoop常用命令
1. 显示运行在linux上的java程序ps aux |grep java2. 后台运行Java程序nohup java -jar lemon_facebook.jar > fbout.file &3. kill Java进程kill -9 进程号4. 删除hdfs上的文件hadoop fs -rmr /SAP\ SE/APP1/POST/Facebook/R原创 2015-01-19 11:49:19 · 419 阅读 · 0 评论 -
写入HDFS
写入HDFS的代码public class HDFS { private static final String HDFS_ADDR = Config.HDFS_PATH;//hdfs://10.58.121.170:9000 private static FileSystem fs; static { Configuration configuration = new Config原创 2015-01-16 11:16:04 · 471 阅读 · 0 评论 -
感知器算法
算法流程图如下所示:原创 2014-08-11 14:43:11 · 9207 阅读 · 0 评论 -
KNN算法
KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN算法的结果很大程度取决于K的选择。在KNN中,通过计算对象间距离来作为各个对象之间的非相似性转载 2017-10-24 09:30:32 · 402 阅读 · 0 评论 -
python+selenium+phantomjs实现爬虫功能
一.phantomjs介绍一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。提供javascript API接口,即通过编写js程序可以直接与webkit内核交互,在此之上可以结合java语言等,通过java调用js等相关操作,从而解决了以前c/c++才能比较好的基于webkit开发优质采集器的限制。提供windows、li原创 2017-11-22 10:37:47 · 2988 阅读 · 0 评论 -
搭建Sphinx全文搜索引擎
目前,全文搜索引擎主要有三种: Lucene系, 包含solr 和 elasticsearch,Java支持的很好; sphinx,c++开发, 简单高性能, Xapian,c++开发, 国内的 xunsearch 基于XapianSphinx是开源的搜索引擎,它支持英文的全文检索。所以如果单独搭建Sphinx,你就已经可以使用全文索引了。但是往往我们要求的是中文索引,怎么做呢?国人提供了一个原创 2017-12-22 13:27:40 · 2184 阅读 · 0 评论 -
教你如何迅速秒杀掉:99%的海量数据处理面试题
前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文将摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问题。最后...转载 2014-04-17 20:29:11 · 1072 阅读 · 0 评论