大数据
你的莽莽没我的好吃
这个作者很懒,什么都没留下…
展开
-
docker安装及配置(容器安装mysql)
安装# 由于apt官方库里的docker版本可能比较旧,所以先卸载可能存在的旧版本sudo apt-get remove docker docker-engine docker-ce docker.io# 更新apt包索引sudo apt-get update# 安装以下包以使apt可以通过HTTPS使用存储库(repository)sudo apt-get install -...原创 2020-04-29 15:53:13 · 251 阅读 · 0 评论 -
Spark:根据TFIDF提取的特征向量计算相似度矩阵(皮尔逊系数、斯皮尔曼系数)
特征向量的提取请看我的之前的一篇博客:https://blog.csdn.net/LOG_IN_ME/article/details/103047796特征向量提取结果如下图:这个DataFrame的“TF-IDF”列就是提取的特征向量。我们把该列取出来:val TFIDFResult: DataFrame = idfModel.transform(featureVec)...原创 2019-11-23 00:53:51 · 2252 阅读 · 0 评论 -
Spark:使用jieba分词的工程搭建
1、IDEA开发环境中project structure的设置配置项目的JDK:File > Project Structure > Project Settings > Project > Project SDK在复选框中选择项目使用的JDK,如果之前没有设置,点击旁边的new按钮从本地目录导入自己下载好的JDK。2、Maven配置文件的设置IDE...原创 2019-11-15 16:52:47 · 2520 阅读 · 0 评论 -
Spark:基于jieba分词的特征向量提取
基于jieba分词的对计算机课程名的特征向量提取首先引入包:import org.apache.spark.sql.{DataFrame, SparkSession}//spark入口,DataFrame操作需要用到的包import java.nio.file.{Path, Paths}//加入自定义词库时路径需要的包import com.huaban.analysis.jieba...原创 2019-11-13 13:56:01 · 1594 阅读 · 3 评论 -
Scala:搜狗自定义词库在jieba上的实现(Java也可)
搜狗细胞词库:https://pinyin.sogou.com/dict/其每个小分类例如【自然科学】下的【物理】都有一个“官方推荐”和若干词库。下载其中一个词库后,得到的是scel格式文件,需要转换成txt才能使用,可使用在线转换工具批量转换:https://www.toolnb.com/tools/scelto.html本次我就下载了搜狗官方推荐的物理词库,转换后命名为p...原创 2019-10-25 16:05:27 · 1663 阅读 · 0 评论 -
Spark:Jieba对数据库里提取的记录进行中文分词
从数据库里读取记录我们要创建一个DataFrame来存储从数据库里读取的表。首先要创建Spark的入口–SparkSession对象。需要引入的包:import org.apache.spark.sql.SparkSession在main函数里:val spark = SparkSession.builder().getOrCreate()//创建一个SparkSession对象...原创 2019-10-22 19:48:06 · 2468 阅读 · 2 评论 -
IDEA:在pom.xml中快捷键自动添加依赖
在POM.XML 中使用快捷键 ALT+INSERT这样就可以搜索包,选择,确认,ADD。转载 2019-10-21 21:54:44 · 5574 阅读 · 2 评论 -
Scala:编程初学实例--对某个目录下所有文件中的单词进行词频统计
为加强对函数式编程的理解,同时巩固Scala语法,这里分析一个实例:对某个目录下所有文件中的单词进行词频统计。【源码】import java.io.Fileimport scala.io.Sourceimport collection.mutable.Mapobject WordCount{ def main(args: Array[String]){ val dir...原创 2019-09-20 18:20:01 · 2424 阅读 · 0 评论 -
大数据5V特点
IBM提出了大数据”5V”特点: 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。三、Va转载 2018-01-10 15:12:33 · 20202 阅读 · 1 评论 -
国内慕课(学堂在线,华文慕课,网易公开课)
慕课(MOOC)(MOOCs是MOOC的复数形式,意指多门MOOC),英文直译"大规模开放的在线课程(Massive Open OnlineCourse)",是新近涌现出来的一种在线课程开发模式。慕课具有如下几个主要特点:1、大规模: 不是个人发布的一两门课程:"大规模网络开放课程"(MOOC)是指那些由参与者发布的课程,只有这些课程是大型的或者叫大规模的,它才是典型的MOOC。2、开原创 2018-01-30 20:55:18 · 12537 阅读 · 0 评论 -
2017年乌镇世界互联网大会推荐的18项领先科技成果
其中14项独立成果(14项世界互联网领先科技成果):1、华为3GPP 5G预商用系统2、ARM 安全架构3、微软人工智能小冰4、北斗卫星导航系统5、高通5G 芯片组实现的全球首个5G 数据链接6、基于“神威·太湖之光”超级计算机系统的重大应用成果7、世界首台超越早期经典计算机的光量子计算机8、特斯拉垂直整合能源解决方案9、滴滴原创 2018-01-10 16:49:46 · 1122 阅读 · 0 评论