自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Spark—键值对操作

Spark—键值对操作简述动机创建Pair RDDPair RDD的转换操作聚合操作(转化操作)数据分组连接数据排序Pair RDD的行动操作RDD操作函数汇总简述键值对RDD是Spark中许多操作所需要的常见数据类型。一般通过一些初始ETL(抽取、转化、装载)操作将数据转化为键值对形式。动机Spark中包含键值对类型的RDD被称为pair RDD。Pair RDD是很多程序的构成要素,因...

2019-03-13 19:00:32 468

原创 Spark—RDD(弹性分布式数据集-Rdsilient Distributed Dataset)编程

RDD编程RDD基础创建RDDRDD操作转化操作(transformation)行动操作(action)惰性求值向Spark传递函数常见的转化操作和行动操作基本RDD持久化(缓存)RDD基础RDD,分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同节点上。创建RDD从外部读取一个数据集。lines = sc.textFile('file:///G:\spark\REA...

2019-03-12 16:06:34 293

原创 Spark——在Windows单机安装spark

Windows安装spark下载安装Java,安装版本为8下载spark安装包下载Hadoop支持包下载并安装pycharm和anaconda配置pycharm运行spark环境spark读取本地文件格式:下载安装Java,安装版本为8Java8下载地址安装教程详见:菜鸟教程—Java安装下载spark安装包spark2.3.3下载地址建议安装2.3.3版本,高版本的2.4.0在运行时...

2019-03-12 09:31:21 2923

原创 Ubuntu中Pycharm配置anaconda报错:python packaging tools not found

conda命令将提示错误:“错误的解释器:没有这样的文件或目录”

2019-03-04 15:35:08 2760

原创 Python_Machine_Learning之kNN算法(k—近邻算法)

KNN算法(K—近邻算法)算法概述简单的讲,k-近邻算法通过测量不同特征值之间的距离进行分类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。k:样本数据中前k个最相似的数据,通常k为不超过20的整数。Python算法实现距离计算方法:欧式距离公式:def classify0(inX, DataSet, labe...

2019-03-03 21:11:26 168

原创 Spark---ALS推荐算法

Spark——ALS推荐算法推荐算法介绍协同过滤式推荐的优缺点ALS推荐算法的介绍用户对产品项目的评分稀疏矩阵(Sparse Matrix)的问题矩阵分解(Matrix Factorization)数据下载环境说明在IPython Notebook中运行推荐程序首先启动所有虚拟机并启动Hadoop集群Cluster切换至IPython Notebook工作目录并在Hadoop YARN-clien...

2019-03-03 21:03:21 5520

原创 网页字体转换——实习僧

需求说明爬取实习僧网站岗位信息时,遇到网页自定义字体反爬,与猫眼字体反爬类似。解决思路通过requests库获取网页字体信息,然后通过百度在线字体解析,解析出字体内容。通过字体的编码和实际字体对象进行编码对应,最后通过编码与数字对应关系,返回具体的数字。涉及到的库~在这里插入代码片...

2018-11-28 22:22:36 499

原创 一键登陆教务系统

程序说明通过python实现一键登陆教务系统。涉及的库PyInstallerfrom selenium import webdriver函数体def login(url: str, account: list): # 设置参数的类型检查 input_account = [] global brower # 函数体内设置global让charm保持开启状态...

2018-11-04 10:24:29 437

原创 爬虫练习__1:爬取实习僧公司数据

爬虫练习__1:爬取实习僧公司数据练习说明:因数据分析比赛需要,所以尝试着第一次练习爬取网页数据。针对实习僧网页中Python实体岗位的数据进行爬取。并将爬取下来的数据存入Excel文件中。涉及到的库requests、re、BeautifulSoup、xlsxwriter...

2018-09-18 14:48:01 1808

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除