spark_python
文章平均质量分 58
HBQ_
数据挖掘,数据分析
展开
-
python下spark_RDD认识与操作
RDD是一个不可修改的,分布的对象集合。每个RDD由多个分区组成,每个分区可以同时在集群中的不同节点上计算。RDD可以包含Python,Java和Scala中的任意对象。1.RDD不存在迭代器,遍历需要使用foreach()函数2.RDD的子元素是list,具有迭代器3.transformation接受RDD,返回RDD。转换采用惰性调用机制,每个RDD记录父RDD转换的方法,这种原创 2016-03-06 20:12:07 · 1008 阅读 · 0 评论 -
语料库知识
知名中文语料库:1. 中央研究院近代汉语标记语料:http://www.sinica.edu.tw/Early_Mandarin/ (台湾的繁体,在NLTK中有)2.中央研究院汉籍电子文献 http://www.sinica.edu.tw/ftms-bin/ftmsw3 3. 国家现代汉语语料库 http://124.207.106.21:8080/ 这个没搜索到4.国家语委现代转载 2017-03-01 15:56:24 · 2752 阅读 · 0 评论 -
NLTK中使用Stanford parser 构建中文语法树
我的环境是ubuntu16.10,最新的stanford parser 需要Java8环境,因此首先需要安装JDK。然后到http://nlp.stanford.edu/software/lex-parser.shtml#Download网址下载stanford-parser-full-xxxx-xx-xx.zip,将这个压缩包解压。如果是用Java进行开发,则就很容易了,将解压包里的几个ja原创 2017-03-01 10:38:27 · 11017 阅读 · 2 评论 -
spark2.0
从网站上搜寻了些关于spark2.0的新特性:1. DataFrame引入了schema和off-heapSchema(数据结构信息) : RDD每行的数据,结构都是一样的。这个结构就存储在schema中。Spark通过schema能够读懂数据。因此在通信和IO时就只需序列化和反序列化数据,而结构的部分就可以省略。Off-heap : 意味着JVM堆以外的内存,这些内存直接受系统管理,原创 2017-01-04 16:29:42 · 383 阅读 · 0 评论 -
Windows + IDEA + SBT 打造Spark源码阅读环境
转自 :http://guozhongxin.com/pages/2014/10/15/spark_source_code.htmlSpark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介转载 2016-03-12 21:18:08 · 255 阅读 · 0 评论 -
Hbase笔记(不全面)
因为看的时候不是在一个电脑上看的,所以笔记没有整理全面。create 'mytable', 'cf' --表名,列族名put 'mytable', 'first','cf:message','hello hbase' --表名,行名键,列族:列名,数据get 'mytable','first' --表名,行键(读取一行数据)scan 'mytable' --(返回的行是按行的原创 2016-04-04 15:06:38 · 366 阅读 · 0 评论 -
举例说明Spark RDD的分区、依赖
转自http://www.jianshu.com/p/6b9e4001723dscala> val textFileRDD = sc.textFile("/Users/zhuweibin/Downloads/hive_04053f79f32b414a9cf5ab0d4a3c9daf.txt")15/08/0307:00:08 INFO MemoryStore: ensureFr转载 2016-03-06 21:52:42 · 403 阅读 · 0 评论 -
Spark的TaskScheduler和DagScheduler
转自http://yangyoupeng-cn-fujitsu-com.iteye.com/blog/2040748在Spark中一个核心的是模块就是调度器(Scheduler),在spark中Scheduler有两种TaskScheduler(是低级的调度器接口),DagScheduler(是高级的调度) 我们在创建SparkContext对象的时候,sparkcontext内部就会转载 2016-03-09 17:09:14 · 378 阅读 · 0 评论 -
理解Spark的核心RDD
转自http://www.infoq.com/cn/articles/spark-core-rdd与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(转载 2016-03-06 21:31:14 · 266 阅读 · 0 评论 -
jieba词性和句法分析树标注集
句法分析树标注集:ROOT 原始语句;IP简单句;NP 名词短语;VP动词短语;PU 断句符,通常是句号、问号、感叹号等标点符号;LCP 方位词短语;PP介词短语;CP 由’的‘构成的修饰性关系的短语;DNP由’的‘构成的表示所属关系的短语;ADVP 副词短语;ADJP 形容词短语;DP 限定词短语;QP 量词短语;NN常用名词;NR 固有名词;NT原创 2017-03-01 17:07:18 · 6983 阅读 · 0 评论