大数据
红瓤大柚子
这个作者很懒,什么都没留下…
展开
-
jieba分词流程及算法学习
目录jieba特点算法jieba分词流程图Trie 树建立 DAG 词图分词 DAG 代码实现计算全局概率Route ,基于词频最大切分组合隐马尔可夫HMM 算法引用jiebaPython 中文分词库:github: https://github.com/fxsjy/jieba特点支持三种分词模式:– 精确模式,试图将句子最精确地切开,适合文本分析;– 全模式,把句子中所有的可以...转载 2019-07-15 17:47:38 · 7490 阅读 · 0 评论 -
动态规划求解最大连续子序列和
#!/usr/bin/env python# -*- coding:utf-8 -*-# 求最大连续子序列和"""【题目】 给定k个整数的序列{N1,N2,...,Nk },其任意连续子序列可表示为{ Ni, Ni+1, ..., Nj }, 其中 1 <= i <= j <= k。最大连续子序列是所有连续子序中元素和最大的一个, 例如给定序列{ -2, 11, -...原创 2019-07-16 22:51:31 · 2692 阅读 · 0 评论 -
Spark环境配置笔记
Spark环境配置笔记本地Pycharm调试Spark环境配置Pycharm 首先得装上(尽量别用社区版)Java8/ Python2都安装好(没难度,有问题自行百度)下载Hadoop包/Scala包/Spark-Hadoop包(注意版本对应)不管有用没用先用pip把py4j模块装上。同时pip安装pyspark模块Pycharm中 Run/Debug Configurations ...原创 2019-08-11 21:56:59 · 239 阅读 · 0 评论 -
Spark性能调优 - 关键性能考量
Spark关键性能考量一、RDD并行度默认情况下,Spark会对RDD自动分配合适的并行度,但这并不总是有效的。Spark提供两种方法对操作的并行度进行调优:第一种方法是在数据混洗操作时,使用参数的方式为混洗后的RDD指定并行度第二种方法是对于任何已有的RDD,可以进行重新分区来获取更多或者更少的分区数。重新分区操作通过 repartition() 实现,该操作会把RDD随机...原创 2019-08-20 17:51:43 · 262 阅读 · 0 评论 -
大数据各系统及组件的控制台网址/启动方式汇总
Hadoop控制台: http://master:8088/cluster检查运行状态:jpsmaster: ResourceManager NameNode SecondaryNameNodeslave: NodeManager DataNode启动:master: $HADOOP_HOME/sbin/start-all.shHive控制台:无(s...原创 2019-08-25 20:52:56 · 222 阅读 · 0 评论