- 博客(9)
- 收藏
- 关注
原创 Spark—键值对操作
Spark—键值对操作简述动机创建Pair RDDPair RDD的转换操作聚合操作(转化操作)数据分组连接数据排序Pair RDD的行动操作RDD操作函数汇总简述键值对RDD是Spark中许多操作所需要的常见数据类型。一般通过一些初始ETL(抽取、转化、装载)操作将数据转化为键值对形式。动机Spark中包含键值对类型的RDD被称为pair RDD。Pair RDD是很多程序的构成要素,因...
2019-03-13 19:00:32
468
原创 Spark—RDD(弹性分布式数据集-Rdsilient Distributed Dataset)编程
RDD编程RDD基础创建RDDRDD操作转化操作(transformation)行动操作(action)惰性求值向Spark传递函数常见的转化操作和行动操作基本RDD持久化(缓存)RDD基础RDD,分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同节点上。创建RDD从外部读取一个数据集。lines = sc.textFile('file:///G:\spark\REA...
2019-03-12 16:06:34
293
原创 Spark——在Windows单机安装spark
Windows安装spark下载安装Java,安装版本为8下载spark安装包下载Hadoop支持包下载并安装pycharm和anaconda配置pycharm运行spark环境spark读取本地文件格式:下载安装Java,安装版本为8Java8下载地址安装教程详见:菜鸟教程—Java安装下载spark安装包spark2.3.3下载地址建议安装2.3.3版本,高版本的2.4.0在运行时...
2019-03-12 09:31:21
2923
原创 Ubuntu中Pycharm配置anaconda报错:python packaging tools not found
conda命令将提示错误:“错误的解释器:没有这样的文件或目录”
2019-03-04 15:35:08
2760
原创 Python_Machine_Learning之kNN算法(k—近邻算法)
KNN算法(K—近邻算法)算法概述简单的讲,k-近邻算法通过测量不同特征值之间的距离进行分类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。k:样本数据中前k个最相似的数据,通常k为不超过20的整数。Python算法实现距离计算方法:欧式距离公式:def classify0(inX, DataSet, labe...
2019-03-03 21:11:26
168
原创 Spark---ALS推荐算法
Spark——ALS推荐算法推荐算法介绍协同过滤式推荐的优缺点ALS推荐算法的介绍用户对产品项目的评分稀疏矩阵(Sparse Matrix)的问题矩阵分解(Matrix Factorization)数据下载环境说明在IPython Notebook中运行推荐程序首先启动所有虚拟机并启动Hadoop集群Cluster切换至IPython Notebook工作目录并在Hadoop YARN-clien...
2019-03-03 21:03:21
5520
原创 网页字体转换——实习僧
需求说明爬取实习僧网站岗位信息时,遇到网页自定义字体反爬,与猫眼字体反爬类似。解决思路通过requests库获取网页字体信息,然后通过百度在线字体解析,解析出字体内容。通过字体的编码和实际字体对象进行编码对应,最后通过编码与数字对应关系,返回具体的数字。涉及到的库~在这里插入代码片...
2018-11-28 22:22:36
499
原创 一键登陆教务系统
程序说明通过python实现一键登陆教务系统。涉及的库PyInstallerfrom selenium import webdriver函数体def login(url: str, account: list): # 设置参数的类型检查 input_account = [] global brower # 函数体内设置global让charm保持开启状态...
2018-11-04 10:24:29
437
原创 爬虫练习__1:爬取实习僧公司数据
爬虫练习__1:爬取实习僧公司数据练习说明:因数据分析比赛需要,所以尝试着第一次练习爬取网页数据。针对实习僧网页中Python实体岗位的数据进行爬取。并将爬取下来的数据存入Excel文件中。涉及到的库requests、re、BeautifulSoup、xlsxwriter...
2018-09-18 14:48:01
1808
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人