- 博客(6)
- 资源 (8)
- 收藏
- 关注
转载 新词发现及Java和spark实现
新词发现并不是一个新的课题,但最有意思的一点是如果采用无监督的算法,可以完全脱离人工的经验由算法自动找到有语意的“词语”,而不是胡乱拼凑的汉字片段(归因于算法的有效性和语料本身是由有意义的词语构成的)。本文参考了matrix67的一篇文章,互联网时代的社会语言学:基于SNS的文本数据挖掘,采用无监督方法来发现新词,基本原理就是通过N-gram找到可能的词,然后计算这些词的词频、紧密度和自由度,最终...
2018-04-10 13:23:33 354
转载 学习大数据的第一步-搭建Scala开发环境,以及使用Intellij IDEA开发Scala程序
1为什么要学习Scala语言2Scala简介3Scala在Windows系统上的安装及环境配置1安装Java下载JDK配置环境变量测试Java环境3安装Scala下载Scala配置环境变量测试Scala环境4使用Intellij IDEA写hello world1安装Intellij IDEA下载Intellij IDEA配置Intellij IDEA1、为什么要学习Scala语言?结合Spark...
2018-04-10 09:09:00 361
转载 Intellij IDEA2017.3永久激活方法
随着idea不断地发展,eclipse的缺点日渐明显,为了能够获得良好的编码体验,越来越多的朋友转向了idea,淘汰了eclipse但是由于近期idea所有私人服务器被封杀了,很多喜欢编码的朋友们都陷入了一个问题,如何在不购买正品的情况重新激活自己的idea,小编也是个编程小白,但是很注重个人的代码体验,所以小编最近找到了一个新的方法,希望能够对大家有所帮助:1 下载idea,此步骤小编就不再做过...
2018-04-09 17:25:03 1991
原创 Spark部署文档
目录 1 Local模式跑spark. 1 2配置Standalone模式... 1 3配置Standalone模式with HA. 2 4配置on YARN.. 2 5 安装MySQL. 4 6 安装Hive. 5 7修改spark源码并编译部署... 8 8 添加Spark读取hive元数据... 11 服务器角色 node21 node22 node23 node24 Jounra...
2018-04-02 09:51:32 550
原创 Hadoop on Yarn配置信息
core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name&am
2018-04-02 09:42:57 216
原创 Hadoop on Yarn配置文档
目录 1软件配置文件基本信息... 1 2 安装Linux Centos6.9. 4 3 WinSCP Copy安装软件... 5 4克隆你的环境... 6 5免秘钥登录... 7 6格式化namenode,启动集群... 8 1软件配置文件基本信息软件列表:VMware-workstation-full-9.0.2-1031769.exe (虚拟机不能太老,发现7的话不能安装64位Centos...
2018-04-02 09:32:29 3064
ssas5部署与管理.rar
2020-06-21
20120926-Informatica_Hello_World_Program.rar
2020-04-23
sqlserver2008sql.rar
2020-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人