大数据
红瓤大柚子
这个作者很懒,什么都没留下…
展开
-
jieba分词流程及算法学习
目录jieba特点算法jieba分词流程图Trie 树建立 DAG 词图分词 DAG 代码实现计算全局概率Route ,基于词频最大切分组合隐马尔可夫HMM 算法引用 jieba Python 中文分词库: github: https://github.com/fxsjy/jieba 特点 支持三种分词模式: – 精确模式,试图将句子最精确地切开,适合文本分析; – 全模式,把句子中所有的可以...转载 2019-07-15 17:47:38 · 7455 阅读 · 0 评论 -
动态规划求解最大连续子序列和
#!/usr/bin/env python # -*- coding:utf-8 -*- # 求最大连续子序列和 """ 【题目】 给定k个整数的序列{N1,N2,...,Nk },其任意连续子序列可表示为{ Ni, Ni+1, ..., Nj }, 其中 1 <= i <= j <= k。最大连续子序列是所有连续子序中元素和最大的一个, 例如给定序列{ -2, 11, -...原创 2019-07-16 22:51:31 · 2677 阅读 · 0 评论 -
Spark环境配置笔记
Spark环境配置笔记 本地Pycharm调试Spark环境配置 Pycharm 首先得装上(尽量别用社区版) Java8/ Python2都安装好(没难度,有问题自行百度) 下载Hadoop包/Scala包/Spark-Hadoop包(注意版本对应) 不管有用没用先用pip把py4j模块装上。同时pip安装pyspark模块 Pycharm中 Run/Debug Configurations ...原创 2019-08-11 21:56:59 · 234 阅读 · 0 评论 -
Spark性能调优 - 关键性能考量
Spark关键性能考量 一、RDD并行度 默认情况下,Spark会对RDD自动分配合适的并行度,但这并不总是有效的。 Spark提供两种方法对操作的并行度进行调优: 第一种方法是在数据混洗操作时,使用参数的方式为混洗后的RDD指定并行度 第二种方法是对于任何已有的RDD,可以进行重新分区来获取更多或者更少的分区数。 重新分区操作通过 repartition() 实现,该操作会把RDD随机...原创 2019-08-20 17:51:43 · 256 阅读 · 0 评论 -
大数据各系统及组件的控制台网址/启动方式汇总
Hadoop 控制台: http://master:8088/cluster 检查运行状态:jps master: ResourceManager NameNode SecondaryNameNode slave: NodeManager DataNode 启动: master: $HADOOP_HOME/sbin/start-all.sh Hive 控制台:无(s...原创 2019-08-25 20:52:56 · 216 阅读 · 0 评论