python数据集_python-通过使用现有数据集作为基础数据集...

您可以使用R轻松生成符合正态分布的数据,可以按照以下步骤进行操作

#Read the data into a dataframe

library(data.table)

data = data = fread("data.csv", sep=",", select = c("latitude", "longitude"))

#Remove duplicate and null values

df = data.frame("Lat"=data$"latitude", "Lon"=data$"longitude")

df1 = unique(df[1:2])

df2 <- na.omit(df1)

#Determine the mean and standard deviation of latitude and longitude values

meanLat = mean(df2$Lat)

meanLon = mean(df2$Lon)

sdLat = sd(df2$Lat)

sdLon = sd(df2$Lon)

#Use Normal distribution to generate new data of 1 million records

newData = list()

newData$Lat = sapply(rep(0, 1000000), function(x) (sum(runif(12))-6) * sdLat + meanLat)

newData$Lon = sapply(rep(0, 1000000), function(x) (sum(runif(12))-6) * sdLon + meanLon)

finalData = rbind(df2,newData)

now final data contains both old records and new records

将finalData数据帧写入CSV文件,您可以从Scala或python中读取它

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值