Kngines`Blog

存在感从来不是别人给的,只有自己太过弱小,才没有足够的分量存在于世界上!...

Python性能优化技巧(一)

写在前面 运行环境 jupyter 最近在处理大数据量问题,强化下Python性能优化方面的能力。 个人总结便于后续掌握与使用,仅供参考。 后续待更( 深入学习 ) … 1. 循环之外能实现逻辑,不放在循环内处理 [2.22倍] : a = range(10000) size_a = ...

2018-10-08 17:43:02

阅读数:17

评论数:0

gpx文件解析 Demo

GPX (the GPS Exchange Format) WHAT IS GPX? GPX (the GPS Exchange Format) is a light-weight XML data format for the interchange of GPS data (waypoi...

2018-07-13 00:49:00

阅读数:460

评论数:0

pandas处理远程mysql数据

应用场景 pandas 【分析、处理利器】 处理、分析数据比较强大,因此这样的需求很有必要.。 利用 pandas(Python) 查询处理数据库数据 。 来一下华丽的分割 … … Python Coding MySQLdb 建立连接 import pymysql pym...

2018-03-30 22:44:07

阅读数:115

评论数:0

利用 Python 计算MD5值

文章架构 目的 日常开发中,经常涉及到针对某些值进行加密的情况(隐私信息,例如密码等信息)。 利用 Python 某些模块将 DataFrame(pandas)某列进行MD5加密处理很方便。 利用Python 3 与 Python 2中不同模块处理之间的差异(例如,Python2...

2018-03-20 18:59:34

阅读数:1802

评论数:0

apply函数处理多列series数据及时间字符串转timestamp

文章架构 场景描述 数据挖掘过程中, 会遇到处理/加工多列(series)的需求。例如,计算某些选择列的和、拼接某些列组成新的列(用于筛选比较)等。 博文通过小例子,给出解决上述需求的实现过程。 有的时候,一些数据需要根据实现排序取最新的,因此文章也涉及将时间串转换为 times...

2018-03-07 00:22:18

阅读数:234

评论数:1

Python爬取顶级域名(根域名)数据

主框架 场景描述 数据分析/挖掘过程中,某些场景利用 根域名数据 进行数据筛选 。 在利用 Python 处理本地文件。 顶级域名数据获取方式 方式 1 Python 2 urllib2.urlopen() 方法 import pandas as pd i...

2018-02-27 19:28:22

阅读数:318

评论数:0

DataFrame 对象合并

主要内容 Pandas中 DataFrame 对象数据纵向、横向合并。 Pandas 中 concat 函数参数理解与简单应用。 异常的简单处理。 目的 再利用Python开发过程中,常用到 DataFrame 对象的横、纵向合并,所以作此总结。 1. 纵向合并Da...

2018-02-27 00:07:44

阅读数:394

评论数:0

Python爬虫系列之四:利用Python爬取PyODPS页面并整合成PDF文档

文章架构 开发场景 在日常开发过程中, 经常需要参考一些文档。对于在线文档,往往由于网速等原因,用起来总不是那么(ma)顺(fan)心。 博文以爬取 PyODPS Docs 为例,整理页面爬取、转换(PDFKit)、文档整合(PyPDF2)的过程。 开发工具 Anaconda Py...

2018-02-03 19:30:48

阅读数:429

评论数:1

利用Python读取网络数据文件

场景 在实践机器学习算法过程中,有的数据源可以通过网络获取。于是,想利用Python代码直接加载到程序中,省去下载的操作。一方面是可能是由于懒,另一方面还可以秀一下“肌肉”,哈哈哈 … 作为一名实在的假“程序猿”,手动下载资源如果被小弟们看到,太跌份儿不是! 开发工具 Anaconda 2 ...

2018-01-30 21:07:28

阅读数:2073

评论数:0

geohash 模块安装及使用(Anaconda.Python 2)

1 安装场景 在 anaconda多内核环境中,实现 由 经纬度 得到 geohash 编码 . 实现方式: 安装 Geohash 模块 安装方式 通过 命令行 安装 在 Anaconda Prompt 窗口中,通过 pip 或 conda 命令安装Geohash模块 . 通过 源代码 ...

2018-01-28 00:10:34

阅读数:1230

评论数:0

Python爬虫系列之三:根据名称爬取经纬度信息并Geohash编码

1 开发场景 安装geohash模块并根据经纬度计算geohash值. 爬取某些名称(地名)的经纬度等信息. 开发语言及工具 Python 2 Anaconda mzgeohash 安装包(tar.gz)下载 / 安装 Link 1 源码下载 / 安装 Link 2 注意: 个人尝...

2018-01-27 22:32:28

阅读数:1439

评论数:2

Python爬虫系列之二:爬取2018公务员招考职位信息

1 开发场景 爬取公务员招考职位(2018)信息,积累知识、锻炼动手能力等等。 2 详细描述 基于 Python 爬取 华图教育 官网有关公务员招考职位信息数据。 通过request请求数据,利用bs4进行解析;由于实现较简单,请(bu)参(zai)考(zhui)代(su)码。 ...

2018-01-24 23:13:57

阅读数:370

评论数:0

Python爬虫系列之一:爬取糗事百科段子(24小时)

场景 没有爬数据的能力,更谈不上做好数据分析! 网上虽有很多文档参考,但一直感觉:纸上得来终觉浅! 啊哈, 有点儿假文艺了。其实最大的痛就是,毕竟网上的都是别(zi)人(ji)家(tai)的(cai)文档;通过总结,一方面希望积累知识,另一方面希望有所帮助。 描述 基于 Pytho...

2018-01-21 19:35:27

阅读数:378

评论数:0

格式错误 1008. 数组元素循环右移问题

Python 解决 PAT . 1008, 提交后测试结果中存在 “格式错误” 问题。 分析、定位问题,提交正确结果。

2017-11-12 22:44:54

阅读数:101

评论数:0

[PAT]1003. 我要通过! (Python)

Introduction【背景】 最近虽从事数据分析工作,但总感觉每天的进步比较慢,有时候心里不免有些失落。也由于个人需要(PAT考试),因此近期开始在计算机程序设计能力考试(Programming Ability Test,简称PAT)网站刷算法试题。 目前主要使用Python进行开发,因此大多...

2017-11-06 17:17:14

阅读数:494

评论数:0

Python 解析爬取的车次数据(12306)

利用 Python 更好、高效地加工、解析大数据量文件

2017-10-29 01:11:00

阅读数:746

评论数:0

Unreadable Notebook NotJSONError('Notebook does not appear to be JSON: u\'{\\n

偶然的错误操作(一脸懵逼,我确实不知道我对她做了什么!),耗费了很长时间使用 Jupyter 完成的脚本忽然打不开了。尝试很多次依然“面不改色”地提示错误如下:Unreadable Notebook NotJSONError('Notebook does not appear to be JSON...

2017-08-29 23:33:04

阅读数:2889

评论数:0

pandas 数量增加趋势图

绘制某时段内用户增量趋势图

2017-08-25 00:28:33

阅读数:829

评论数:0

Permission denied (publickey).fatal: Could not read from remote repository.

题 外 话: 最近开始使用 python 进行大数据开发工作,用到的技术知识比较碎片化,就总结起来,以便后续参考。解决问题 使PyCharm 工具和 GitHub建立起链接,达到通过PyCharm 进行日常开发,通过GitHub 存储项目的目的。在拉取GitHub项目的过程中,出现被拒绝情况,如...

2017-07-19 22:54:33

阅读数:310

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭