![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 76
PsG庞士冠
大三学生,菜鸡一名
展开
-
搭建完全分布式平台以及在spark下实现K-Means算法时遇到的问题
上周五终于完成了第一次数据挖掘大作业的答辩,周末又去参加了蓝桥杯,一直没有时间整理遇到的问题,直到今天才闲下来。尽量把遇到的问题都能记录下来,日后便于自己回看。主要分三个部分:Centos7的基本配置、Hadoop+Spark的配置、K-Means算法的实现。一、Centos7的基本配置 1、不能连接上外网解决方法:最便捷的方法是把虚拟机的ip地址改为动态ip,再把连接方式...原创 2018-04-02 21:10:42 · 2354 阅读 · 1 评论 -
配置idea的pom.xml文件遇到的问题
今天在配置idea的pom.xml时遇到了一些问题提示我dependency 'org.apache.spark:spark-core_2.1.4:2.1.0 'not found 我就奇怪了,因为我的版本就是spark2.1.0、scala版本就是2.1.4 ,为什么会提示错误呢?我打开了我的spark文件夹,找一下这个jar包,发现版本果然有问题于是把中scala.version改为2.11就...原创 2018-04-03 15:26:06 · 3266 阅读 · 0 评论 -
CentOS7+Hapdoop2.8+spark2.1完全分布式平台的搭建经历
写在前面个人心得与经验:1、关于全分布和伪分布的区别:全分布是指在不同物理主机上搭建平台。伪分布是指一台物理主机中有多台虚拟机,这些虚拟机搭建的平台就是伪分布式平台。2、关于平台版本选择:尽量选择成熟的版本,不要太旧也不要选择最新版本的。版本太旧会出现一些异常,可能是它平台本身存在的问题,也可能会出现与现在的一些主流框架不兼容的情况。最新版本的话会在配置文件上有所不同,网上搜到的资料不也是特别多,...原创 2018-03-29 01:16:06 · 710 阅读 · 0 评论 -
利用决策树对微信公众号文本进行分类
问题背景:公众平台的公众号每天都会发布大量文章,通过群发图文的形式向用户每天推送内容。由于公众号面向的用户群体、专注的领域不同,图文内容也差异很大。一些公众号主要发布时事政治内容,而另外一些公众号主要发布游戏的视频与周边等。识别公众号的内容对公众平台的运营与新场景应用发挥重要作用,其中对公众号文本的挖掘能力是一个基础能力。本次题目选择时尚类公众号的文章,关注化妆个护领域,要求根据给出的文章内容(已...原创 2018-05-16 23:21:35 · 2588 阅读 · 2 评论 -
TensorFlow基础教程
转载的,原文地址: https://blog.csdn.net/Toormi/article/details/53609245介绍TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来,用于机器学习和深度神经网络方面的研究,但这个系统的...转载 2018-05-26 12:15:57 · 357 阅读 · 0 评论 -
复仇者联盟3的舆情分析
基于时间序列的舆情分析(复仇者联盟3) 摘要随着移动互联网和信息技术的发展,网络产生了形形色色的自媒体平台。以微博、微信为代表的社交软件受到了网民的热烈追捧,由此每天产生着的海量即时信息,描述着社会中正在发生的热点事件,如能即时发现、追踪这些社会热点事件,将有助于实现网络舆情的实时监控,为决策者提供可靠的数据支持。本次作业通过python爬虫爬取微博以及电影评论,针对某一个事件进行舆情分析。 1...原创 2018-06-06 21:34:52 · 1182 阅读 · 4 评论