大数据
TinaO-O
这个作者很懒,什么都没留下…
展开
-
因果推断方法(一)合成控制
因果推断原创 2023-02-23 14:42:03 · 610 阅读 · 0 评论 -
spark scala 检查array list是否含有某个特定元素
比如我有个复杂的数组猫咪:cat = (('age'->4),('name'->'旺财'))我想知道猫咪数组是否记录了猫咪性别,我如果直接取cat('sex')取不到就会出错,所以我用contain方法:val sex = if(cat.contains('sex')) cat('sex') else ''...原创 2021-06-24 16:59:59 · 3382 阅读 · 0 评论 -
python 读取 csv 到numpy array
大多教程整一堆没有用的,先转成pandas dafaframe然后再巴拉巴拉,下面一句代码就够了:from numpy import genfromtxtmy_data = genfromtxt("/Users/2333/666.csv", delimiter=',')读取进来就是个二维数组:array([[ nan, nan, nan, nan, nan], [4.9321...原创 2021-05-26 11:47:49 · 4570 阅读 · 3 评论 -
spark scala 获取 json 列
写自定义目录标题第一种方式第二种方式比如数据Teacher有个 json列叫做information长这样, 有两个元素,我们想获取其中的name,让它成为一个独立的列:{‘name’: ‘tom’, '‘age’:33, …}第一种方式获取到json类型的information这个column里面的name,并且成为一个新的列,叫做name。import org.apache.spark.sql.functions.{get_json_object}Teacher.withColumn("nam原创 2021-05-26 11:46:28 · 773 阅读 · 0 评论 -
spark sql 读取 parquet 文件
你可以使用spark-sql -S启动 sql的 spark。CREATE TEMPORARY VIEW parquetTableUSING org.apache.spark.sql.parquetOPTIONS ( path "/user/data/dt=2020-09-09/")这行代码会从上述文件夹读取parquet文件,读取后的table就叫parquetTable可以使用:desc parquetTable;select * from parquetTable li原创 2020-11-15 16:04:44 · 1259 阅读 · 0 评论 -
mysql 自定义排序 ORDER BY FIELD 用法
本章解决自定义排序问题。比如,淘宝订单有三个状态:正在处理中,取消,已完成,想要自己的订单数据按照:1.处理中。2.已完成。3取消排序。下面的代码就实现了这一功能,自定义了status按照'In Process', 'On Hold', 'Cancelled','Resolved', 'Shipped'进行排序那么,Field遇到In Process返回的是1.On Hold则是2。以此类推。注意,如果没写全,比如:遇到Disputed会自动返回0....原创 2020-10-19 10:07:14 · 1121 阅读 · 0 评论 -
pyspark 中文 colomn schema 列 改名
当列名是中文时,你引用该列的名字会报错。df.姓名#报error!!df.name #没有error所以需要使用 selectExpr改名df = spark.read.csv("./ex.csv").selectExpr("姓名 as name")df.name #不报错ref:https://stackoverflow.com/questions/34077353/how-to-change-dataframe-column-names-in-pyspark...原创 2020-08-16 15:22:25 · 1027 阅读 · 0 评论 -
pyspark 筛选 null 行
如果某行数值是null,去掉这行,比如代码:df = df.filter(df.x2. isNotNull())+---+----+----+| x1| x2| x3 |+---+----+----+| a| b|null|| 1|null| 0 || 2| 2| 3 |+---+----+----+#去掉之后+---+----+----+| x1| x2| x3 |+---+----+----+| a| b|null|| 2|原创 2020-08-16 14:56:02 · 7313 阅读 · 0 评论 -
pySpark 读取csv文件
这个读取蛮水的。but从官网来的。from pyspark.sql import SparkSessionspark = SparkSession.builder \ .enableHiveSupport().getOrCreate()df = spark.read.csv("/tmp/resources/zipcodes.csv")df.printSchema()##可以得到root |-- _c0: string (nullable = true) |-- _c1: s.原创 2020-08-16 14:40:50 · 15478 阅读 · 2 评论 -
python CSV 文件读取 存储 例子
我想读取一个CSV文件,然后只取前几条数据,之后存储成为一个新的文件,代码很简单,注意看注释哦import csv#这个是我要读取的csv,文件名不一定携带csv也可以file_dir = "./666.c000"#这个是我要写入的write_name = "./csvSamples.csv"csvFile = open(file_dir,"r")csvFileS = open(write_name,"w")#读取reader = csv.DictReader(csvFile)f原创 2020-08-03 10:02:45 · 509 阅读 · 0 评论