- 博客(29)
- 资源 (19)
- 收藏
- 关注
原创 Python分词模块推荐:jieba中文分词
一、结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法二、结巴中文分词支持的分词模式目前结巴分词支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把...
2015-08-29 18:09:54 6964
原创 python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容:全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下#coding:utf-8import urllib2from bs4 import BeautifulSoupimport osimport re#import sys#reload(sys)#sys.setdefau...
2015-08-27 21:18:41 5406 1
原创 MapReduce 按照Value值进行排序输出
文件输入:A 1B 5C 4E 1D 3W 9P 7Q 2文件输出:W 9P 7B 5C 4D 3Q 2E 1A 1代码如下:package comparator;import java.io.IOException;import org.a...
2015-08-27 12:24:54 12107 4
原创 eclipse 运行MapReduce程序错误异常汇总(解决Map not fount)
错误一:Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class wordCount.wordCount$Map not foundat org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074)at org.apac...
2015-08-24 12:47:21 6726 1
原创 《机器学习实战》基于朴素贝叶斯分类算法构建文本分类器的Python实现
============================================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言=...
2015-08-22 17:05:39 7255 2
原创 python 字典排序
引子字典,形如 dic = {'a':1 , 'b':2 , 'c': 3},字典中的元素没有顺序,所以dic[0]是有语法错误的。并且不可以有重复的键值,所以dic.add['c'] = 4后,字典变成 {'a':1 , 'b':2 , 'c': 4}.待解决问题如何根据需要可以根据“键”或“键值”进行不同顺序的排序?函数原型sorted(dic,value,revers...
2015-08-22 14:21:31 3080
原创 浅谈zookeeper的在hbase集群中的作用
一,什么是zookeeper?ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、 蜜蜂(Hive) 、 小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,ZooKeeper是以Fast Pa...
2015-08-20 08:10:22 6512 2
原创 Python随机数生成方法
如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处,下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系,希望你会有所收获,以下就是这篇文章的介绍。random.random()用于生成用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限。如果a > b,则生成随机数 1 ...
2015-08-19 20:35:34 3796
原创 hive1.2伪分布mysql数据库配置详解
hadoop2.6伪分布配置:http://blog.csdn.net/gamer_gyt/article/details/46793731hive1.2 derby元数据库配置:http://blog.csdn.net/gamer_gyt/article/details/47150621环境说明hadoop2.6伪分布 Ubuntu14.04 ...
2015-08-19 10:30:29 3718 1
原创 HBase的JAVA API操作详解
hbase 伪 分 布 安 装参考:http://blog.csdn.net/gamer_gyt/article/details/47126961hbase shell操作命令参考:http://blog.csdn.net/gamer_gyt/article/details/47131857数 据 挖 掘 资源链接汇总:http://blog.csdn.net/gamer_gyt/arti...
2015-08-18 12:04:12 3614
原创 数据挖掘数据集下载资源
在网上看到很好的资源收集,分享给大家:1、气候监测数据集http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/da...
2015-08-18 10:19:01 6015 1
原创 《机器学习实战》决策树(ID3算法)的分析与实现
============================================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言=...
2015-08-15 09:13:03 6211
原创 社区划分-PageRank算法MapReduce实现
PageRank算法的分析和Python实现参考:http://blog.csdn.net/gamer_gyt/article/details/47443877举例来讲:假设每个网页都有一个自己的默认PR值,相当于人为添加给它是一种属性,用来标识网页的等级或者重要性,从而依据此标识达到排名目的。假设有ID号是1的一个网页,PR值是10,假如它产生了到ID=3,ID=6,ID=8 ,ID=9...
2015-08-12 21:01:16 4983
原创 社区划分-PageRank算法的解析与Python实现
一、什么是pagerankPageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者首先随机选择一个网页打开,然后在这个网页上呆了几分...
2015-08-12 14:28:29 16606 5
原创 Python爬取CSDN博客专家系列——移动开发
注明:小编亲测,只要把第一部分里面的url修改,即可抓取博客专家里边所有的专家的博客内容和标题,后续小编还会对此代码改进,敬请期待文章分为两部分:Python爬虫爬取移动开发专家的姓名和博客首页地址,爬取每个专家的所有博客存放在已该专家名字命名的txt文件中说明:本爬虫主要是采用BeautifulSoup和少量的正则匹配,在第一部分抓取完毕后需要将文件格式改为ANSI,代码如下:第一部分:...
2015-08-11 20:42:40 2949 1
原创 《机器学习实战》k最近邻算法(K-Nearest Neighbor,Python实现)
============================================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言=...
2015-08-11 12:35:47 13848 2
原创 Python中的列表、元祖、字典
一、列表一组有序项目的集合。可变的数据类型【可进行增删改查】列表是以方括号“[]”包围的数据集合,不同成员以“,”分隔。列表中可以包含任何数据类型,也可包含另一个列表列表可通过序号访问其中成员常用列表操作:list.append()追加成员,成员数据list.pop()删除成员,删除第i个成员list.count(x)计算列表中参数x出现的次数list.r...
2015-08-11 11:43:06 2959
原创 MapReduce框架排序和分组
前言: Mapreduce框架就是map->reduce,其中Map中的<key,value>是偏移量和行值,在其之前会使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat,他提供的R...
2015-08-07 15:48:45 2566
原创 MapReduce框架Partitioner分区方法
前言:对于二次排序相信大家也是似懂非懂,我也是一样,对其中的很多方法都不理解诶,所有只有暂时放在一边,当你接触到其他的函数,你知道的越多时你对二次排序的理解也就更深入了,同时建议大家对wordcount的流程好好分析一下,要真正的知道每一步都是干什么的。1.Partitioner分区类的作用是什么?2.getPartition()三个参数分别是什么?3.numReduceTasks指的是设置的...
2015-08-07 15:20:18 9805
原创 MapReduce框架Mapper和Reducer类源码分析
一:Mapper类在Hadoop的mapper类中,有4个主要的函数,分别是:setup,cleanup,map,run。代码如下:protected void setup(Context context) throws IOException, InterruptedException {// NOTHING}protected void map(KEYIN key, VA...
2015-08-07 13:45:16 3260
原创 MapReduce 二次排序详解
1 首先说一下工作原理:在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat,他提供的RecordReder会将文本的一行的行号作为key,这一行的文本作为value。这就是自定义Map的输入是<L...
2015-08-06 13:31:29 3092
原创 hadoop2.6伪分布+pig0.15+zookeeper3.4.6安装
一、hadoop2.6伪分布安装请参考:http://blog.csdn.net/gamer_gyt/article/details/46793731二、pig0.15安装Pig的介绍 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。...
2015-08-04 10:58:55 2901 1
原创 Ubuntu系统下eclipse配置mapreduce插件常见错误和解决办法汇总
在上篇文章中eclipse已经能访问HDFS目录( blog.csdn.net/gamer_gyt/article/details/47209623),但并不能进行Mapreduce编程,在这里小编将常见错误和处理办法进行总结,希望对大家有所帮助错误1:ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to l...
2015-08-03 15:34:40 3842
原创 hive中的表、外部表、分区和桶的理解
一、概念介绍 Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据 Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如,一个表 pvs...
2015-08-02 20:19:09 6095
原创 windows下使用Eclipse编译运行MapReduce程序 Hadoop2.6.0/Ubuntu
一、环境介绍宿主机:windows8虚拟机:Ubuntu14.04hadoop2.6伪分布:搭建教程http://blog.csdn.net/gamer_gyt/article/details/46793731Eclipse:eclipse-jee-luna-SR2-win32-x86_64二、准备阶段网上下载hadoop-eclipse-plugin-2.6.0.jar ...
2015-08-02 19:07:06 3344
转载 朴素贝叶斯分类算法(Naive Bayesian classification)
机器学习(分类算法) and 十大算法:朴素贝叶斯分类0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业
2015-08-02 11:04:46 7884
原创 动态规划算法
一、基本概念 动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划。二、基本思想与策略 基本思想与分治法类似,也是将待求解的问题分解为若干个子问题(阶段),按顺序求解子阶段,前一子问题的解,为后一子问题的求解提供了有用的信息。在求解任一子问题时,列出各种可能的局部解,通...
2015-08-02 09:45:57 2966 3
原创 Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException
使用MapReduce编写的中文分词程序出现了Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图:上网查了好多资料,才明白这是hadoop本身的问题,具体参考:https://issues.apache.org/jira/browse/YARN-1298h...
2015-08-01 11:51:44 3606
原创 《图论》——最短路径 Dijkstra算法(戴克斯特拉算法)
十大算法之Dijkstra算法:最短路径是图论算法中的经典问题。图分为有向图、无向图,路径权值有正值、负值,针对不同的情况需要分别选用不同的算法。在维基上面给出了各种不同的场景应用不同的算法的基本原则:最短路问题。针对无向图,正权值路径,采取Dijkstra算法。如上图,是求a到b的最短路径,这里并不限定b节点,修改为到任意节点的路径,问题是完全一样的。首先需要记录每个...
2015-08-01 10:30:59 17968 2
word2vec.zip
2019-11-13
NLP汉语自然语言处理原理与实战
2018-06-15
gephi-0.9.1-windows.exe
2017-02-14
mysql-connector-java-5.0.4-bin.jar
2017-02-14
commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar
2016-07-28
从疝气病症预测病马的死亡率的测试数据集
2016-04-25
十大算法之线性查找算法
2015-07-29
securboot未完全配置消除补丁
2014-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人