pyspark
MusicDancing
这个作者很懒,什么都没留下…
展开
-
pyspark 读写orc格式文件
数据原始格式# -*- coding: utf-8 -*-import sysimport osfrom pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSession, HiveContextfrom pyspark.sql.types import *from pyspark.sql import Rowreload(sys)sys.setdefaultencoding("ut..原创 2020-09-18 10:41:46 · 2955 阅读 · 0 评论 -
使用pyspark读写hive数据表
使用pyspark读写hive数据表1、读Hive表数据pyspark读取hive数据非常简单,因为它有专门的接口来读取,完全不需要像hbase那样,需要做很多配置,pyspark提供的操作hive的接口,使得程序可以直接使用SQL语句从hive里面查询需要的数据,代码如下:from pyspark.sql import SparkSession, HiveContextspark = SparkSession.builder.enableHiveSupport().getOrCreate(原创 2020-08-12 16:11:46 · 3162 阅读 · 0 评论 -
pyspark 实现PageRank
#!/usr/bin/env python# -*- coding: utf-8 -*-from __future__ import print_functionimport reimport sysfrom operator import addfrom pyspark import SparkConf, SparkContextdef compute_contribs(urls, rank): """ 给urls计算 Args: urls: 目.原创 2020-12-11 20:41:19 · 1142 阅读 · 0 评论 -
pyspark 实现LR
11# -*- coding: utf-8 -*-# 加上下两行代码,可以直接使用python aa.py 执行import findsparkfindspark.init()import datetimeimport osfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession, HiveContextfrom pyspark.sql.types import StringTyp原创 2021-04-07 19:47:34 · 680 阅读 · 0 评论 -
pyspark实现数据生产到parquet及hive表
1.原创 2021-08-18 14:52:37 · 1186 阅读 · 0 评论