自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

random0815的博客

share the thought

  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

原创 SparkMLlib随机森林实现pm预测(自定义函数的使用)

本文主要是用SparkMLlib中的一些算法来对PM进行预测,其中涉及了dataframe中对列使用自定义函数的操作,很方便!!任务:读取pm.csv,将含有缺失值的行扔掉(或用均值填充)将数据集分为两部分,0.8比例作为训练集,0.2比例作为测试集(1)使用month,day,hour,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir作为特征列(除去No,year,pm),...

2018-04-17 17:12:18 2418 13

原创 PyCharm 无法 import pandas 程序卡住

问题描述:之前一直用习惯了jupyter notebook ,今天换一下IDE,直接用Pycharm,结果发现在import pandas 的时候,虽然不报错,但是程序无法运行比如这个代码,只能打印出第一句开始读取,之后程序一直运行,但不停止。。。让我很是头大啊。。在网上搜了各种各样的解决方法。设置解释器。。。一系列的都没有问题但是pandas还是不能引入,好了使用暴力解决的方法,...

2018-04-12 21:43:24 9024

原创 Spark文本挖掘机器学习实现

本文主要是通过招聘网站爬取的招聘信息对招聘信息进行分类结合文本相关spark 算法,包括spark中机器学习算法的使用,文本挖掘的一些方法,特征值的转换给定文件的格式①.通过spark相关API将爬取到的数据进行处理,得到结构化的数据表读取json文件并对其中的标点进行过滤 val conf = new SparkConf().setAppName("input")...

2018-04-11 17:56:59 875

原创 使用Spark进行排名统计

使用Spark进行简单的数据统计给定数据集为各年龄段不同性别的用户对电影观看情况的一个统计主要用了Spark中算子的一些操作相关的数据文件 1. 年龄段在“18-24”的男性年轻人,最喜欢看哪10部 首先读取文件,在用户文件中读取符合条件的年轻人 val conf =new SparkConf().setAppName("read_gz_file...

2018-04-10 10:59:46 4044

原创 Linux常用命令

本文主要介绍的是Linux一些常用的命令,刚开始学Linux的童靴可以从这里开始练习哦!利用pwd命令显示当前目录 ls命令 ls -a命令的区别 man命令查看ls的手册 在根目录下创建test目录cd / mkdir test在test目录下创建user1/user2目录结构 cd test mkdir -p user1/user2在某个目录...

2018-04-07 18:14:47 665

东北大学软件测试复习题

东北大学软件学院软件测试期末测试题,亲测好用。

2018-11-13

东北大学数据库课程设计

东北大学软件学院数据库课设。包括三次实验的全部代码和文档。不过仅供参考呀。

2018-09-01

东北大学软件工程复习题

软件工程题库,亲测好用,尤其题库2。。。。。。。。。。

2018-07-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除