自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 Ubuntu18.04 安装 java、python、hadoop、scala、spark、zoopeeper、kafka

linux 安装软件的步骤都是一样的,解压之后就可以使用。https://blog.csdn.net/ii719481781/article/details/81807731一  预处理1、把下载好的软件对应的压缩包解压到指定文件夹sudo tar -zxvf /home/hadoop/download/x.tgz -C /usr/local2、重命名,因为解压后的文件带有...

2019-01-29 16:50:48 444

原创 kafka 学习笔记

一 名词解释名词     解释Producer     消息的生成者Consumer     消息的消费者ConsumerGroup     消费者组,可以并行消费Topic中的partition的消息Broker     缓存代理,Kafka集群中的一台或多台服务器统称broker.Topic     Kafka处理资源的消息源(feeds of messages)的不同分类Pa...

2019-01-29 09:36:43 198

原创 spark的转换和行动

1. map:是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。2. filter: 是对RDD中的每个元素都执行一个指定的函数来过滤产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。3. flatMap:与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD...

2019-01-28 09:44:33 666

原创 日志文件是如何传到数据库的

def dbfunc(records): db = pymysql.connect("localhost","root","root","spark") cursor = db.cursor() def doinsert(p): sql = "insert into wordcount(word,count) v...

2019-01-25 11:54:45 576

原创 ubuntu spark 的环境变量

JAVA_HOME=/usr/local/java/jdk1.8.0_201SCALA_HOME=/usr/local/scalaSPARK_HOME=/usr/local/sparkJRE_HOME=${JAVA_HOME}/jrePATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/binexport CLA...

2019-01-24 09:29:43 724

原创 vim 使用

vim的常用模式有分为命令模式,插入模式,可视模式,正常模式。本教程中,只需要用到正常模式和插入模式。二者间的切换即可以帮助你完成本指南的学习。正常模式 正常模式主要用来浏览文本内容。一开始打开vim都是正常模式。在任何模式下按下Esc键就可以返回正常模式 插入编辑模式 插入编辑模式则用来向文本中添加内容的。在正常模式下,输入i键即可进入插入编辑模式 退出vim 如果有利用vim修改...

2019-01-22 13:11:54 138

原创 python 线程、多线程、进程、多进程、协程

一、进程进程是程序的分配资源的最小单元;一个程序可以有多个进程,但只有一个主进程;进程由程序、数据集、控制器三部分组成。二、线程线程是程序最小的执行单元;一个进程可以有多个线程,但是只有一个主线程;线程切换分为两种:一种是I/O切换,一种是时间切换(I/O切换:一旦运行I/O任务时便进行线程切换,CPU开始执行其他线程;时间切换:一旦到了一定时间,线程也进行切换,CPU开始执行其他线程)。...

2019-01-17 16:14:19 176

原创 python 错误汇总

1 Keyerror 指字典的键值异常运算过程中产生了异常的数据或者数值,导致返回的结果的数值也是异常的。检查程序中可能存在异常数据和数值的代码。2 AttributeError: 'DataFrame' object has no attribute 'map'在 spark2.0之后,rdd 和DataFrame格式调用map函数时候还是不一样的。DataFrame需要显示.rdd...

2019-01-15 16:01:23 995 1

原创 Python数据库连接池DBUtils

首先第一点,有了DBUtils之后,之前的连接池的调用方法统统可以抛弃。一、使用代码如下,需要注意,conn = pool.connection(),因为connection()方法是有返回值的。conn.cursor() 查询返回的是元组,不像在pymysql模块里的cursor()里面可以设定 参数使其返回字典类型。import MySQLdbfrom DBUtils.Pool...

2019-01-15 09:35:58 305

原创 HBase 入门

来源:https://www.yiibai.com/hbaseHadoop的限制Hadoop只能执行批量处理,并且只以顺序方式访问数据。这意味着必须搜索整个数据集,即使是最简单的搜索工作。当处理结果在另一个庞大的数据集,也是按顺序处理一个巨大的数据集。在这一点上,一个新的解决方案,需要访问数据中的任何点(随机访问)单元。HBase是什么?HBase是建立在Hadoop文件系统之...

2019-01-07 14:53:41 183

原创 TextRank 关键词提取算法

一、TextRank 的算法原理: 其前身是PageRank。 二者的思想有相同之处,区别在于:PageRank算法根据网页之间的链接关系构造网络,而TextRank算法根据词之间的共现关系构造网络;PageRank算法构造的网络中的边是有向无权边,而TextRank算法构造的网络中的边是无向有权边。TextRank 一般模型可以表示为一个有向有权图 G =(V, E), 由点集合 V和边集合 E...

2019-01-03 17:17:32 2946 1

原创 基于TFIDF的关键词提取算法

1 关于TFIDF的理论,已经路人皆知。 2 TFIDF手写实现。3 调用jieba自带的方法 完成关键词提取。 输入一篇文章,根据每个词语的TFIDF值的大小排序,输出该文章的topk个关键词# sentence 的格式为'word1 word2 ... wordn' 是一个字符串。keywords = jieba.analyse.extract_tags(sentence, ...

2019-01-03 16:51:15 3502

原创 基于语义的中文文本关键词提取(SKE)算法

参考文献:http://xueshu.baidu.com/usercenter/paper/show?paperid=125db7807fcd28419b5388104d486fdc&site=xueshu_se对于每个候选关键词,其得分由五部分加权求和得到:Vd: 单词居间度密度. loc:单词所在文章的位置得分. len: 单词长度得分。pos: 单词所属词性得分. tfi...

2019-01-03 16:01:27 3682

原创 LDA (三) 关键词提取2.0

前言:对于第一个版本 的基于LDA的文本关键词提取  实现了给定文本,提取其关键的功能。后来有需求变动,需要给出所提取的关键词的重要程度排名。便有一个问题:如何判断文本自身的词语的重要性几何,其打分的依据是什么。这也是所有关键词提取方法中最重要的一步。思路:1.  LDA模型训练得到 topic_word 。由此可以知道每个topic 由哪些单词所代表,以及每个单词在这个topic的重要性得分...

2019-01-03 15:17:31 7639

原创 Spark ml 之一 简单的文本多分类

主要参考:使用PySpark处理文本多分类问题和 python机器学习的流程一样。ml提供了机器学习的各种接口。本文主要记录ml 里数据读取、预处理、模型使用的基础知识。第一步 读取数据from pyspark.sql import SQLContextfrom pyspark import SparkContextsc =SparkContext()sqlContext = ...

2019-01-02 10:30:48 1232 6

KDD Cup 2012 Track1 数据集

KDD Cup 2012 Track1 数据集。数据集包含了用户特征和Item特征。文件为百度云链接。可快速下载。

2019-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除