行路者

SYQ

Pandas工作实践数据处理常用总结

Pandas常用的功能函数和数据处理技巧修改列名称file_data = pd.read_csv(‘data.csv’)file_data.rename(columns = {file_name.columns[0]:’new_name’}, inplace=True) inplace表示是否要修...

2018-02-24 11:34:02

阅读数 1983

评论数 0

c++读取数据文件

文件中的数字以逗号结尾: 3.0,2,3,1,2,3 2,3,4,2,3,2 4,5,6,7,4,3.0 具体代码如下: // // main.cpp // Load_Data // // Created by tong on 2019/1/4. // Copyright © 2...

2019-01-04 15:53:35

阅读数 68

评论数 0

利用Pandas向csv文件追加

# -*- coding:utf-8 -*- import os import time import pandas as pd from multiprocessing import Pool def merge(filename): return pd.read_csv('./f...

2019-01-03 09:31:55

阅读数 586

评论数 0

json转成pandas的一些坑

在工作中,有一些数据的格式是json,但是在处理数据的时候,需要我们转成pandas格式的来做数据的处理。 import pandas as pd import json from pandas.io.json import json_normalize data = '{&quot...

2018-12-22 20:21:03

阅读数 669

评论数 0

pandas数据判断是否为NaN值的方式

实际项目中有这样的需求,将某一列的值,映射成类别型的数据,这个时候,需要我们将范围等频切分,或者等距切分。 具体的做法可以先看某一些特征的具体分布情况,然后我们选择合适的阈值进行分割。 def age_map(x): if x < 26: ret...

2018-09-26 08:49:29

阅读数 7355

评论数 0

二维坐标排序

要求是:横坐标升序,如果横坐标相同,按照纵坐标降序排列。 new_data = sorted(data,key=lambda x:(x[0],-x[1]))  

2018-09-19 18:17:59

阅读数 207

评论数 0

刷题四:给定字符串,转化为数字

leetcode原题:其实也就是实现一个atoi的函数。 思路如下:首先要找到数字出现的位置,如果数字前面有空格,不做处理,往下继续遍历。最后再判断是否为32位所能容纳的范围内。 C++代码如下: int Myatoi(string s) { if(s.empty() == tru...

2018-09-02 19:18:21

阅读数 45

评论数 0

从POI点找到边界

工作中有这样的一个需求,通过历史订单的经纬度点,进行一个聚类,聚之后我们需要找到它的边界点存储。 聚类的操作有基于Kmeans的和DBSCAN的密度聚类,只是这里需要注意,经纬度点的聚类需要用到距离的计算,不能简单的作为欧式距离或者曼哈顿距离。因为地球是一个球面,在根据经纬度点计算距离的时候,需...

2018-09-02 12:42:16

阅读数 323

评论数 0

PCA的过程

操作流程: 1、去除平均值,让每一维特征减去各自特征的平均值 2、计算协方差矩阵 如果数据是三维的,那么协方差矩阵是这样的。主对角线上是方差,非对角线是两两元素的协方差。 协方差的绝对值越大,对彼此的影响就越大。 3、计算协方差矩阵的特征值与特征向量 4、对特征值从大较小的排序 ...

2018-08-09 09:22:24

阅读数 213

评论数 0

刷题三:给定一个排序数组和目标值,求下标

给定一个排序数组nums(无重复元素)与目标值target,如果target在nums里出现,则返回target所在下标,如果target在nums里未出现,则返回target应该插入位置的数组下标,使得将target插入数组nums后,数组仍有序。// // main.cpp // bina...

2018-06-12 18:16:41

阅读数 264

评论数 0

Xcode如何修改字体大小

Mac平台,如何修改字体大小:如下操作:11、打开Xcode点击左上角22、选择下拉列表Preferences(或者使用快捷键Command+,“逗号”)33、Command+A,全选右侧的Source Editor下的item,点击Font后面的T按钮,会弹出Fonts对话框,即可将默认字体大小...

2018-06-11 16:13:32

阅读数 1092

评论数 0

刷题二:求有序数组中非重复元素少于等于两个元素的个数

题意:For example, Given sorted array A = [1,1,1,2,2,3],Your function should return length = 5, and A is now [1,1,2,2,3]此时返回的是5,也即是元素的个数。int solution(ve...

2018-06-10 14:40:25

阅读数 60

评论数 0

刷题一:移除重复元素返回非重复元素的个数

For example, Given input array A = [1,1,2],Your function should return length = 2, and A is now [1,2].其中,重复元素的个数,最多为两次。如果大于两次,请看下一个算法题解。// // main.c...

2018-06-10 14:06:45

阅读数 131

评论数 0

python实现selenium自动登录微博抓取数据

#coding = utf-8 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait f...

2018-06-09 21:06:30

阅读数 841

评论数 0

pandas重新生成索引

在数据处理的过程中,出现了这样的问题,筛选某些数据,出现索引从600多开始,但是我希望这行数据下标从0开始。这个时候,我想到的是:df.reindex(range(length))但是查看一下数据之后,发现0-624之间的值全为Nan,显然不是我需要的数据。最后找到了说明:pandas调用rein...

2018-06-08 10:51:39

阅读数 2474

评论数 0

pandas筛选某列出现编码错误

df = df[df['cityname']==u'北京市']记得,如果用的python2,一定要导入import sys reload(sys) sys.setdefaultencoding('utf-8')或者在中文前面加入u'表示unicode编码的,因为pandas对象中中文字符为un...

2018-05-29 17:03:38

阅读数 379

评论数 0

如何将字符串转化为二维列表

比如这样的字符串:data = "120.927444,31.036067;120.927369,31.036068;120.927226,31.036123;120.926748,31.036288;120.926044,31.036519;120.925804,31.0366...

2018-05-29 15:05:43

阅读数 1072

评论数 0

求旋转数组中最小元素问题

#include <stdio.h> #include <iostream> #include <vector> using namespace std; int ...

2018-05-29 13:49:11

阅读数 64

评论数 0

从地图抓取小区边界经纬度

某德地图会返回假数据,并不是封你IP的策略,一定要注意,有可能也会封,但是我爬的时候,间隔比较长。2、3秒。 最后还是用的代理,单机无法完成任务,量比较大。 后来根据算法识别出,爬取的这个点是不是真实的数据,有两种方法: 其一:判断抓取的连续的经纬度点,是否有锐角,有几个,在真实的数据中...

2018-05-27 12:57:20

阅读数 2734

评论数 13

根据经纬度点求面积

根据经纬度计算的面积,需要一个转化,才能和高德地图显示的面积是一致的。原理就是简单多边形求面积公式:data = "115.989099,39.646023;115.987394,39.645988;115.987371,39.647407;115.986684,39.64742...

2018-05-27 12:35:15

阅读数 4037

评论数 7

提示
确定要删除当前文章?
取消 删除
关闭
关闭