Python分词模块推荐:jieba中文分词

一、结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 二、结巴中文分词支持的分词模式 目前结巴分词支持三种分词模式: 精确模式,试图将句子最精确地切开,适...
阅读(2848) 评论(0)

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 {CSDN:CODE:992911} 结果如下:...
阅读(2301) 评论(0)

MapReduce 按照Value值进行排序输出

文件输入: A    1 B    5 C    4 E    1 D    3 W    9 P    7 Q    2 文件输出: W    9 P    7 B    5 C    4 D    3 Q    2 E    1 A    1 代码如下: package comparator; import java.io.IOException...
阅读(3262) 评论(0)

eclipse 运行MapReduce程序错误异常汇总(解决Map not fount)

错误一: Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class wordCount.wordCount$Map not found at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074) at org....
阅读(2735) 评论(0)

《机器学习实战》基于朴素贝叶斯分类算法构建文本分类器的Python实现

关于朴素贝叶斯分类算法的理解请参考:http://blog.csdn.net/gamer_gyt/article/details/47205371 Python代码实现: {CSDN:CODE:961286} 调用方式: 进入该文件所在目录,输入python,执行 >>>import bayes >>>bayes.testingNB()...
阅读(3331) 评论(1)

python 字典排序

引子 字典,形如 dic = {'a':1 , 'b':2 , 'c': 3},字典中的元素没有顺序,所以dic[0]是有语法错误的。并且不可以有重复的键值,所以 dic.add['c'] = 4后,字典变成 {'a':1 , 'b':2 , 'c': 4}. 待解决问题 如何根据需要可以根据“键”或“键值”进行不同顺序的排序? 函数原型 sorted(dic,value,reverse...
阅读(1316) 评论(0)

浅谈zookeeper的在hbase集群中的作用

一,什么是zookeeper? ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、 蜜蜂(Hive) 、 小猪(Pig)  的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei  等项目中都采用到了 Zookeeper。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,ZooKeeper是以Fast Pa...
阅读(2091) 评论(2)

Python随机数生成方法

如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处,下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系,希望你会有所收获,以下就是这篇文章的介绍。 random.random()用于生成 用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限。如果a > b,则生成随机数 1 ...
阅读(1246) 评论(0)

hive1.2伪分布mysql数据库配置详解

hadoop2.6伪分布配置:http://blog.csdn.net/gamer_gyt/article/details/46793731 hive1.2  derby元数据库配置:http://blog.csdn.net/gamer_gyt/article/details/47150621 环境说明 hadoop2.6伪分布          Ubuntu14.04...
阅读(2054) 评论(1)

HBase的JAVA API操作详解

hbase 伪 分 布 安 装参考:http://blog.csdn.net/gamer_gyt/article/details/47126961 hbase shell操作命令参考:http://blog.csdn.net/gamer_gyt/article/details/47131857 其中用到的eclipse快捷键: Alt+/ 代码助手完成一些代码的插入,自动显示...
阅读(1490) 评论(0)

数据挖掘数据集下载资源

在网上看到很好的资源收集,分享给大家: 1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 http://www.fs.fed.us/fire/fuelman/ http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/...
阅读(1764) 评论(0)

《机器学习实战》决策树(ID3算法)的分析与实现

一、简介         决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测 二、基本思想...
阅读(2574) 评论(0)

【大创_社区划分】——PageRank算法MapReduce实现

举例来讲: 假设每个网页都有一个自己的默认PR值,相当于人为添加给它是一种属性,用来标识网页的等级或者重要性,从而依据此标识达到排名目的。假设有ID号是1的一个网页,PR值是10,假如它产生了到ID=3,ID=6,ID=8 ,ID=9这4个网页的链接。那么可以理解为ID=1的网页向ID=3,6,8,9的4个网页各贡献了2.5的PR值。如果想求任意一个网页假设其ID=3的PR值,需要得到所有的其他...
阅读(2030) 评论(0)

【大创_社区划分】——PageRank算法的解析与Python实现

一、什么是pagerank PageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者首先随机选择一个网页打开,然后在这个网页上呆了几分...
阅读(4398) 评论(2)

Python爬取CSDN博客专家系列——移动开发

文章分为两部分:爬取移动开发专家的姓名和博客首页地址,爬取每个专家的所有博客存放在已该专家名字命名的txt文件中 说明:本爬虫主要是采用BeautifulSoup和少量的正则匹配,在第一部分抓取完毕后需要将文件格式改为ANSI,代码如下: 第一部分: {CSDN:CODE:891921} 第二部分: {CSDN:CODE:891923} 结果如下图:...
阅读(1582) 评论(1)

《机器学习实战》k最近邻算法(K-Nearest Neighbor,Python实现)

一、什么是看KNN算法? 二、KNN算法的一般流程 三、KNN算法的Python代码实现 一:什么是看KNN算法?         kNN算法全称是k-最近邻算法(K-Nearest Neighbor)         kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策...
阅读(6232) 评论(1)

Python中的列表、元祖、字典

一、列表 一组有序项目的集合。可变的数据类型【可进行增删改查】 列表是以方括号“[]”包围的数据集合,不同成员以“,”分隔。 列表中可以包含任何数据类型,也可包含另一个列表 列表可通过序号访问其中成员   常用列表操作: list.append()追加成员,成员数据 list.pop()删除成员,删除第i个成员 list.count(x)计算列表中参数x出现的次数 list.r...
阅读(1470) 评论(0)

MapReduce框架排序和分组

前言:         Mapreduce框架就是map->reduce,其中Map中的是偏移量和行值,在其之前会使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat,他提供的RecordReder会将文本的一行的行号...
阅读(1133) 评论(0)

MapReduce框架Partitioner分区方法

前言:对于二次排序相信大家也是似懂非懂,我也是一样,对其中的很多方法都不理解诶,所有只有暂时放在一边,当你接触到其他的函数,你知道的越多时你对...
阅读(2560) 评论(0)

MapReduce框架Mapper和Reducer类源码分析

一:Mapper类 在Hadoop的mapper类中,有4个主要的函数,分别是:setup,clearup,map,run。代码如下: protected void setup(Context context) throws IOException, InterruptedException { // NOTHING } protected void map(KEYIN...
阅读(1213) 评论(0)
29条 共2页1 2 下一页 尾页
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:758175次
    • 积分:9476
    • 等级:
    • 排名:第1976名
    • 原创:212篇
    • 转载:22篇
    • 译文:2篇
    • 评论:273条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论