2016年07月_搜索与推荐Wiki

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创基于hadoop2.7集群的Spark2.0，Sqoop1.4.6，Mahout0.12.2完全分布式安装

写在前边的话 hadoop2.7完全分布式安装请参考：点击阅读，继任该篇博客之后，诞生了下面的这一篇博客基本环境： CentOS 6.5，Hadoop 2.7，Java 1.7 Hive 2.0.0，Zookeeper 3.4.8， Hbase 1.2.2 预安

2016-07-28 09:37:29 11163 8

原创基于hadoop集群的Hive1.2.1、Hbase1.2.2、Zookeeper3.4.8完全分布式安装

基于hadoop 2.7 的完全分布式集群部署 hive 2.0.0， Zookeeper 3.4.8 和 Hbase 1.2.2

2016-07-27 14:41:19 8975

原创 VM+CentOS+hadoop2.7搭建hadoop完全分布式集群

写在前边的话：最近找了一个云计算开发实习生的工作，本以为来了会直接做一些敲代码，处理数据的活，没想到师父给了我一个课题“基于质量数据的大数据分析”，NameNode问题来了首先要做的就是搭建这样一个平台，毫无疑问，底层采用hadoop集群，在此之上，进行一些其他组件的安装和二次开发，整体架构如下：一：安装VM 12.x 下载地址：http://

2016-07-25 15:57:04 29210 9

转载 Centos6.5使用yum安装mysql——快速上手必备

第1步、yum安装mysql[root@stonex ~]# yum -y install mysql-server安装结果：Installed: mysql-server.x86_64 0:5.1.73-3.el6_5

2016-07-21 17:08:01 2496

原创 Python调用微博API获取微博内容

一：获取app-key 和 app-secret 使用自己的微博账号登录微博开放平台(http://open.weibo.com/)，在微博开放中心下“创建应用”创建一个应用，应用信息那些随便填，填写完毕后，不需要提交审核，需要的只是那个app-key和app-secret二：设置授权回调页在“微博开放平台”的“管理中心”找到刚才创建的应用，点开这个应用，点开

2016-07-06 16:43:35 18278 4

原创 Spark的运行架构分析（二）之运行模式详解

在上一篇博客 spark的运行架构分析（一）中我们有谈到Spark的运行模式是多种多样的，那么在这篇博客中我们来具体谈谈Spark的运行模式

2016-07-05 19:34:29 11432 2

原创 Spark的运行架构分析（一）之架构概述

1：Spark的运行模式2：Spark中的一些名词解释3：spark的运行基本流程一：Spark的运行模式 Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行，而当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况，底层的资源调度即可以依赖外部资源调度框架，也可以使用Spark内建的S

2016-07-05 19:33:33 13995 3

原创 Spark 的键值对（pair RDD）操作，Scala实现

一：什么是Pair RDD？ Spark为包含键值对对类型的RDD提供了一些专有操作，这些操作就被称为Pair RDD，Pair RDD是很多程序的构成要素，因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。二：Pair RDD的操作实例1：创建Pair RDDPai RDDr的转化操作：2：针对两个pair RDD 的转化操作

2016-07-04 15:52:12 16290 2

grafana-6.3.3-1 rpm安装包.zip

grafana-6.3.3-1.x86_64.rpm 安装包，

2020-04-09

word2vec.zip

word2vec 官方资源未修改版和malloc函数替换版，官方源码需要科学上网才能获取，这里进行提供，同时mac os系统下需要修改malloc函数方可使用，这里也提供一份修改后的

2019-11-13

自然语言处理大体是从1950年代开始，虽然更早期也有作为。1950年，图灵发表论文“计算机器与智能”，提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期，1966年的ALPAC报告发现十年研究未达预期目标，机器翻译的研究经费遭到大幅削减。一直到1980年代末期，统计机器翻译系统发展出来，机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统，以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息，有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时，可能会得到空泛的回答。例如问题是“我的头痛”，回答是“为什么说你头痛？

2018-06-15

一种人脸表情分类的新方法_Manhattan距离

一种人脸表情分类的新方法_Manhattan距离_李俊华.pdf

2017-07-15

gephi-0.9.1-windows.exe

2017-02-14

mysql-connector-java-5.0.4-bin.jar

2017-02-14

commons-el-1.0.jar，jasper-compiler.jar，jasper-runtime.jar

2016-07-28

delicious.dat

经过预处理的。数据格式 [ USER_ID , URL_ID , Tags ] 。

2016-06-16

kosarak.dat

FP_Tree算法构建新闻点击流的数据集

2016-05-09

从疝气病症预测病马的死亡率的测试数据集

2016-04-25

从疝气病症预测病马的死亡率的训练数据集

从疝气病症预测病马的死亡率的训练数据集，机器学习实战第五章logistic回归实例数据

2016-04-25

hadoop-eclipse-plugin-2.6.0.jar

2015-08-02

lucene4.3.0+IK Analyzer2012FF

2015-07-31

IKAnalyzer_all_jar

IKAnalyzer_all_jar,适用于中文分词（Java和mapreduce）

2015-07-31

十大算法之线性查找算法

算法步骤： 1. 将n个元素每5个一组，分成n/5(上界)组。 2. 取出每一组的中位数，任意排序方法，比如插入排序。 3. 递归的调用selection算法查找上一步中所有中位数的中位数，设为x，偶数个中位数的情况下设定为选取中间小的一个。 4. 用x来分割数组，设小于等于x的个数为k，大于x的个数即为n-k。 5. 若i==k，返回x；若ik，在大于x的元素中递归查找第i-k小的元素。终止条件：n=1时，返回的即是i小元素。

2015-07-29

高精度的加减乘除

高精度对于初学者来说并不是容易的，所以小编在这里这里整理了高精度的加减乘除运算，在一个程序中实现，希望对各位童鞋有所帮助

2014-08-23

securboot未完全配置消除补丁

在我们新安装windows系统后在桌面右下角会出现securboot未完全配置消除补丁这些字，若在BIOS中设置的话对电脑某些功能有影响（如电脑装有双系统，另一个系统进不去，或者电脑不能正常开机），此时就需要这样一个补丁来解决这个问题