数据处理
DexterLien
这个作者很懒,什么都没留下…
展开
-
使用R调用百度地图API批量获取地点经纬度坐标
2018-9-30更新视频教程B站:https://www.bilibili.com/video/av32740755/上一篇里面说了一下用百度地图的拾取坐标系统可以在web里面鼠标点击获取坐标,配合按键精灵去模拟手动搜索点击复制的方法批量获取坐标,效率其实很低的,不过凑活先满足了坐标比较少的情况下的需求,但是对于大量位置信息想要转换成经纬度坐标,还是得上高效率的方法了,研究了一下用R+百...原创 2018-01-30 10:29:27 · 20479 阅读 · 40 评论 -
Python使用Pandas对csv文件进行数据处理
今天接到一个新的任务,要对一个140多M的csv文件进行数据处理,总共有170多万行,尝试了导入本地的MySQL数据库进行查询,结果用Navicat导入直接卡死....估计是XAMPP套装里面全默认配置的MySQL性能不给力,又尝试用R搞一下吧结果发现光加载csv文件就要3分钟左右的时间,相当不给力啊,翻了翻万能的知乎发现了Python下的一个神器包:Pandas(熊猫们?),加载这个140多M的...原创 2018-04-13 18:43:22 · 97311 阅读 · 16 评论 -
Pandas对两个集合进行数据加法运算并合并
大致背景介绍:两个dataframe对象df1和df2,这两个对象行与列均存在交集,现在想将df1+df2得到df3,期望包含df1和df2中所有行与列,在合并过程中如果行列相同的位置,两个数值相加存放到df3中,擦了~这样文字描述起来好绕脑的感觉,还是画个图大概解释一下吧:期望df3的结果:代码上起来:import pandas as pddf1=pd.read_csv("D:/snp/tes...原创 2018-04-13 20:26:14 · 20329 阅读 · 5 评论 -
Lighttpd+Python实现在线数据处理
先吐槽一下Apache的配置文件,好长时间没怎么配置过,发现各种版本之间的语法乱七八糟的,懒得去研究了,还是用简单粗暴有效的Lighttpd吧,性能基本不用考虑.之前用python+pandas做了个数据处理的脚本,想放到服务器上远程调用,B/S模式就可以省的装环境了.还是头一次做这种实现,其实lighttpd就提供个基本的http服务,具体的数据操作通过cgi扔给python脚本来处理,实现...原创 2018-10-28 02:08:13 · 1489 阅读 · 1 评论 -
Pandas数据处理实例笔记(已停更归档)
读取CSV/Excel文件指定数据类型import numpy as npdf = pd.read_csv('xxx.csv', encoding='gbk', dtype='str') # 指定每列数据都为strdf = pd.read_csv('xxx.csv', encoding='gbk', dtype={'b': object, 'c': np.float64}) # 指定b...原创 2018-07-03 19:21:23 · 2887 阅读 · 0 评论 -
我的正则表达式常用语法笔记
常用语法语法 含义 (?<=xxx) 以xxx开头,但是结果中不包含xxx (.*) 任意长度任意字符(贪婪模式,一直选取到最后一次命中的匹配之间的所有内容) (.*?) 任意长度任意字符(非贪婪模式,一旦后面有第一次命中的匹配则停止继续选取) (?=xxx) 以xxx结尾,但是结果中不包含xxx [aBcD] 内容等于a或者B或者...原创 2018-11-04 15:46:17 · 273 阅读 · 0 评论 -
使用openpyxl处理Excel文件实例
import openpyxlfrom openpyxl.styles import Font, Alignment, Border, Sideimport re# 正则表达式用来处理列名regx = r'(?<=\()(.*?)(?=[(,\[])'regx2 = r'(?<=[A-Z、])(.*)'wb = openpyxl.load_workbook('resu...原创 2018-11-04 21:06:20 · 2805 阅读 · 0 评论 -
Pandas中DataFrame对象转json格式
# 添加force_ascii=False参数可以保持中文输出,不被unicode转码# 默认转出来的json格式是对象形式的json数据字符串df.to_json(force_ascii=False)# 添加orient参数,指定使用index顺序输出,二维表格形式df.to_json(orient='index', force_ascii=False)...原创 2019-09-09 08:53:17 · 4985 阅读 · 0 评论