2015年08月_搜索与推荐Wiki

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 Python分词模块推荐：jieba中文分词

一、结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法二、结巴中文分词支持的分词模式目前结巴分词支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把...

2015-08-29 18:09:54 7039

原创 python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容：全部过程采取自动识别与抓取，抓取结果是将一个博主的所有文章存放在以其名字命名的文件内，代码如下#coding:utf-8import urllib2from bs4 import BeautifulSoupimport osimport re#import sys#reload(sys)#sys.setdefau...

2015-08-27 21:18:41 5509 1

原创 MapReduce 按照Value值进行排序输出

文件输入：A 1B 5C 4E 1D 3W 9P 7Q 2文件输出：W 9P 7B 5C 4D 3Q 2E 1A 1代码如下：package comparator;import java.io.IOException;import org.a...

2015-08-27 12:24:54 12409 4

原创 eclipse 运行MapReduce程序错误异常汇总(解决Map not fount)

错误一：Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class wordCount.wordCount$Map not foundat org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074)at org.apac...

2015-08-24 12:47:21 6937 1

原创《机器学习实战》基于朴素贝叶斯分类算法构建文本分类器的Python实现

============================================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记，包含对其中算法的理解和算法的Python代码实现另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件，有需要的留言=...

2015-08-22 17:05:39 7469 1

原创 python 字典排序

引子字典，形如 dic = {'a':1 , 'b':2 , 'c': 3},字典中的元素没有顺序，所以dic[0]是有语法错误的。并且不可以有重复的键值，所以dic.add['c'] = 4后，字典变成 {'a':1 , 'b':2 , 'c': 4}.待解决问题如何根据需要可以根据“键”或“键值”进行不同顺序的排序？函数原型sorted(dic,value,revers...

2015-08-22 14:21:31 3185

原创浅谈zookeeper的在hbase集群中的作用

一，什么是zookeeper？ZooKeeper 顾名思义动物园管理员，他是拿来管大象(Hadoop) 、蜜蜂(Hive) 、小猪(Pig) 的管理员， Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper。ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，ZooKeeper是以Fast Pa...

2015-08-20 08:10:22 6729

原创 Python随机数生成方法

如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处，下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系，希望你会有所收获，以下就是这篇文章的介绍。random.random()用于生成用于生成一个指定范围内的随机符点数，两个参数其中一个是上限，一个是下限。如果a > b，则生成随机数 1 ...

2015-08-19 20:35:34 3866

原创 hive1.2伪分布mysql数据库配置详解

hadoop2.6伪分布配置：http://blog.csdn.net/gamer_gyt/article/details/46793731hive1.2 derby元数据库配置：http://blog.csdn.net/gamer_gyt/article/details/47150621环境说明hadoop2.6伪分布 Ubuntu14.04 ...

2015-08-19 10:30:29 3832

原创 HBase的JAVA API操作详解

hbase 伪分布安装参考：http://blog.csdn.net/gamer_gyt/article/details/47126961hbase shell操作命令参考：http://blog.csdn.net/gamer_gyt/article/details/47131857数据挖掘资源链接汇总：http://blog.csdn.net/gamer_gyt/arti...

2015-08-18 12:04:12 3808

原创数据挖掘数据集下载资源

在网上看到很好的资源收集，分享给大家：1、气候监测数据集http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/da...

2015-08-18 10:19:01 6319 1

原创社区划分-PageRank算法MapReduce实现

PageRank算法的分析和Python实现参考：http://blog.csdn.net/gamer_gyt/article/details/47443877举例来讲：假设每个网页都有一个自己的默认PR值，相当于人为添加给它是一种属性，用来标识网页的等级或者重要性，从而依据此标识达到排名目的。假设有ID号是1的一个网页，PR值是10，假如它产生了到ID=3，ID=6，ID=8 ，ID=9...

2015-08-12 21:01:16 5146

一、什么是pagerankPageRank的Page可是认为是网页，表示网页排名，也可以认为是Larry Page(google 产品经理)，因为他是这个算法的发明者之一，还是google CEO（^_^）。PageRank算法计算每一个网页的PageRank值，然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者，上网者首先随机选择一个网页打开，然后在这个网页上呆了几分...

2015-08-12 14:28:29 17102 2

原创 Python爬取CSDN博客专家系列——移动开发

注明：小编亲测，只要把第一部分里面的url修改，即可抓取博客专家里边所有的专家的博客内容和标题，后续小编还会对此代码改进，敬请期待文章分为两部分：Python爬虫爬取移动开发专家的姓名和博客首页地址，爬取每个专家的所有博客存放在已该专家名字命名的txt文件中说明：本爬虫主要是采用BeautifulSoup和少量的正则匹配，在第一部分抓取完毕后需要将文件格式改为ANSI，代码如下：第一部分：...

2015-08-11 20:42:40 3006

原创《机器学习实战》k最近邻算法(K-Nearest Neighbor,Python实现)

2015-08-11 12:35:47 14084

原创 Python中的列表、元祖、字典

一、列表一组有序项目的集合。可变的数据类型【可进行增删改查】列表是以方括号“[]”包围的数据集合，不同成员以“,”分隔。列表中可以包含任何数据类型，也可包含另一个列表列表可通过序号访问其中成员常用列表操作：list.append()追加成员，成员数据list.pop()删除成员,删除第i个成员list.count(x)计算列表中参数x出现的次数list.r...

2015-08-11 11:43:06 3058

原创 MapReduce框架排序和分组

前言： Mapreduce框架就是map->reduce,其中Map中的<key,value>是偏移量和行值，在其之前会使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat，他提供的R...

2015-08-07 15:48:45 2643

原创 MapReduce框架Partitioner分区方法

前言：对于二次排序相信大家也是似懂非懂，我也是一样，对其中的很多方法都不理解诶，所有只有暂时放在一边，当你接触到其他的函数，你知道的越多时你对二次排序的理解也就更深入了，同时建议大家对wordcount的流程好好分析一下，要真正的知道每一步都是干什么的。1.Partitioner分区类的作用是什么？2.getPartition()三个参数分别是什么？3.numReduceTasks指的是设置的...

2015-08-07 15:20:18 10061

原创 MapReduce框架Mapper和Reducer类源码分析

一：Mapper类在Hadoop的mapper类中，有4个主要的函数，分别是：setup，cleanup，map，run。代码如下：protected void setup(Context context) throws IOException, InterruptedException {// NOTHING}protected void map(KEYIN key, VA...

2015-08-07 13:45:16 3421

原创 MapReduce 二次排序详解

1 首先说一下工作原理：在map阶段，使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat，他提供的RecordReder会将文本的一行的行号作为key，这一行的文本作为value。这就是自定义Map的输入是<L...

2015-08-06 13:31:29 3285

原创 hadoop2.6伪分布+pig0.15+zookeeper3.4.6安装

一、hadoop2.6伪分布安装请参考：http://blog.csdn.net/gamer_gyt/article/details/46793731二、pig0.15安装Pig的介绍 Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。...

2015-08-04 10:58:55 2972

原创 Ubuntu系统下eclipse配置mapreduce插件常见错误和解决办法汇总

在上篇文章中eclipse已经能访问HDFS目录( blog.csdn.net/gamer_gyt/article/details/47209623)，但并不能进行Mapreduce编程，在这里小编将常见错误和处理办法进行总结，希望对大家有所帮助错误1：ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to l...

2015-08-03 15:34:40 4046

原创 hive中的表、外部表、分区和桶的理解

一、概念介绍 Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据 Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如，一个表 pvs...

2015-08-02 20:19:09 6334

原创 windows下使用Eclipse编译运行MapReduce程序 Hadoop2.6.0/Ubuntu

一、环境介绍宿主机：windows8虚拟机：Ubuntu14.04hadoop2.6伪分布：搭建教程http://blog.csdn.net/gamer_gyt/article/details/46793731Eclipse：eclipse-jee-luna-SR2-win32-x86_64二、准备阶段网上下载hadoop-eclipse-plugin-2.6.0.jar ...

2015-08-02 19:07:06 3537

转载朴素贝叶斯分类算法(Naive Bayesian classification)

机器学习（分类算法） and 十大算法：朴素贝叶斯分类0、写在前面的话我个人一直很喜欢算法一类的东西，在我看来算法是人类智慧的精华，其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中，并解决了实际问题后，那种快感更是我在其它地方体会不到的。一直想写关于算法的博文，也曾写过零散的两篇，但也许是相比于工程性文章来说太小众，并没有引起大家的兴趣。最近面临毕业

2015-08-02 11:04:46 8033

原创动态规划算法

一、基本概念动态规划过程是：每次决策依赖于当前状态，又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的，所以，这种多阶段最优化决策解决问题的过程就称为动态规划。二、基本思想与策略基本思想与分治法类似，也是将待求解的问题分解为若干个子问题（阶段），按顺序求解子阶段，前一子问题的解，为后一子问题的求解提供了有用的信息。在求解任一子问题时，列出各种可能的局部解，通...

2015-08-02 09:45:57 3089 3

原创 Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException

使用MapReduce编写的中文分词程序出现了Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图：上网查了好多资料，才明白这是hadoop本身的问题，具体参考：https://issues.apache.org/jira/browse/YARN-1298h...

2015-08-01 11:51:44 3698

原创《图论》——最短路径 Dijkstra算法(戴克斯特拉算法)

十大算法之Dijkstra算法：最短路径是图论算法中的经典问题。图分为有向图、无向图，路径权值有正值、负值，针对不同的情况需要分别选用不同的算法。在维基上面给出了各种不同的场景应用不同的算法的基本原则：最短路问题。针对无向图，正权值路径，采取Dijkstra算法。如上图，是求a到b的最短路径，这里并不限定b节点，修改为到任意节点的路径，问题是完全一样的。首先需要记录每个...

2015-08-01 10:30:59 18526

高精度的加减乘除

高精度对于初学者来说并不是容易的，所以小编在这里这里整理了高精度的加减乘除运算，在一个程序中实现，希望对各位童鞋有所帮助

2014-08-23

基于用户兴趣分类的协同过滤推荐算法

2017-07-04

MySQL基本教程

这里边包含了所有MySQL数据库基本操作命令

2015-07-29

十大算法之线性查找算法

算法步骤： 1. 将n个元素每5个一组，分成n/5(上界)组。 2. 取出每一组的中位数，任意排序方法，比如插入排序。 3. 递归的调用selection算法查找上一步中所有中位数的中位数，设为x，偶数个中位数的情况下设定为选取中间小的一个。 4. 用x来分割数组，设小于等于x的个数为k，大于x的个数即为n-k。 5. 若i==k，返回x；若ik，在大于x的元素中递归查找第i-k小的元素。终止条件：n=1时，返回的即是i小元素。

2015-07-29

NLP汉语自然语言处理原理与实战

自然语言处理大体是从1950年代开始，虽然更早期也有作为。1950年，图灵发表论文“计算机器与智能”，提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期，1966年的ALPAC报告发现十年研究未达预期目标，机器翻译的研究经费遭到大幅削减。一直到1980年代末期，统计机器翻译系统发展出来，机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统，以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息，有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时，可能会得到空泛的回答。例如问题是“我的头痛”，回答是“为什么说你头痛？

2018-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

高精度的加减乘除

基于用户兴趣分类的协同过滤推荐算法

MySQL基本教程

十大算法之线性查找算法

NLP汉语自然语言处理原理与实战

commons-el-1.0.jar，jasper-compiler.jar，jasper-runtime.jar

从疝气病症预测病马的死亡率的测试数据集

kosarak.dat

grafana-6.3.3-1 rpm安装包.zip

word2vec.zip

delicious.dat

从疝气病症预测病马的死亡率的训练数据集

一种人脸表情分类的新方法_Manhattan距离

securboot未完全配置消除补丁

mysql-connector-java-5.0.4-bin.jar

gephi-0.9.1-windows.exe

IKAnalyzer_all_jar

hadoop-eclipse-plugin-2.6.0.jar

lucene4.3.0+IK Analyzer2012FF

空空如也