自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

[email protected]

(Civil to Data)crawler,data-Collect-Clean-Visual

  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 pandas数据清洗入门项目——暴力上传Excel数据至MySQL数据库

需求:这里从网上下载的1000多个Excel表,现需求将所有里面的数据规整化后上传至数据库!需要判断是否上传异常(包括文件下载重复或错误,里面数据的去重处理)这里有三种类型的Excel表需求分别上传至SQL不同的表格,以达到数据的实时更新!!!一、明确需要用的的库Pandas+xlrd(读取整理后匹配数据库的中英文字段) 为何不用pandas.read_exc...

2019-03-26 19:45:42 561

原创 JSON数据的清洗与写入Excel/CSV/进数据库:pandas清洗数据+df.to_excel 与 df.to_csv 与xlwings写入的异同

一、数据获取:爬虫(或抓包)这里有上万个从网上抓取下来的txt文件数二、数据读取清洗三、总结一、pandas清洗数据 1、数据结构类型{‘a’:'b'}则可直接DataFrame,无需清洗 2、若为{‘a’:'b','value':'c'}巧用字典提取,也可用正则表达式提取所需值 3、常见的类型...

2019-03-13 16:15:44 1668

原创 Wxpython入门项目——数据库取数小程序

一、Frame框架二、Pannel——Notebook panel_one: 结果: 其余pannel原理大同小异小程序实现各种取数统计功能:可任意从数据库查询下载计算统计的数据,方面检查数据库数据异常和数据利用。后记:wxpython入门界面是很丑的,但实用快速开发出想...

2019-02-27 18:48:28 1277

原创 阿里巴巴《生意参谋(新版)》Python拦截爬取系列之内容数据

 所用到主要的库:mitmproxy + pandas+urllib第一步:网页分析(Fiddler获取)第二步:篡改Google本地浏览器——网页监控  第三步: mitmproxy拦截所需网页(根据第一步分析)  第四步:获取数据与清洗 图文:  结果:  短视频与直播数据清洗大同小异。看完有收获点个赞吧!!!...

2018-12-20 18:27:58 6538 5

原创 Python爬虫入门之基础表达式

 re.compile(表达式).findall(源数据名)一、正则表达式1、基础(一)普通字符  正常匹配\n             换行\t              制表\w             非特殊字符(字母、数字、下划线)\W            特殊字符\d             十进制\D             非十进制\s ...

2018-08-15 16:03:17 196

《利用数据分析》所用的版本

资源分享,你的支持是我的动力!利用Python数据分析!

2018-07-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除