自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Cyber的博客

专注Python的菜鸟一枚

  • 博客(6)
  • 收藏
  • 关注

原创 Pandas:一种很好的时间序列模型滑窗技巧

一、前言最近在玩一个时间序列的竞赛,里面有个大佬分享了他的源码,里面有一块滑窗的操作很厉害,我之前要么使用For循环来遍历,要么使用Pandas自带的shift+For循环,但是大佬的滑窗技巧是先对一些关键字段(比如人名、地名、物品型号)等进行编码,然后做一个组合编码,再通过-1、-2等操作获得前一天、两天的编码序号,最后通过Map的方式来匹配,效率那是相当的高。我做了一下实验,同样的一些数据...

2019-09-30 10:32:36 1978

原创 Python:一键扫描并清除/转移敏感文件(DOC、PPT、XLS等)

前言:最近公司某些部门到一线检查,对可能有用户信息的文档要一个个检查,虽然明令禁止,但是因为业务需要总归要有的,所以屡禁不止。为了更快地扫描、清除、转移,所以就编了这个小程序,其实功能和Windows的搜索功能差不多,但是更加便捷一点。如果要做的更好一点,程序量就大了,比如打开后搜索是否有敏感字,如用户名、11位的手机号码、8位的固定电话、家庭地址等,逻辑复杂度就会很大很大,我是做不到,只能做一...

2019-09-24 10:05:00 851

原创 Python: 房天下小区数据爬取

前言:之前是写了链家的爬虫,但是实际看下来数据质量不是特别好,所以想把房天下的小区数据也爬下来看看怎么样,但是实际爬取中,发现房天下的反爬技术要稍高一点,目前碰到的有:1、自动检测ip地址,在正常网页中会跳转到新地址,request没办法,不过可以解析新地址并返回后重新连接,问题不大;2、不同页面的布局也会不一样,这个目前没有好的解决办法,我目前是用try except来判断;3、如果速度太...

2019-09-20 12:04:53 4719 5

原创 数据挖掘:智慧教育初赛相关思路和代码

数据下载地址:https://github.com/cybe19870522/Machine-Learning/blob/master/%E6%99%BA%E6%85%A7%E6%95%99%E8%82%B2%E5%88%9D%E8%B5%9B%E6%A8%A1%E5%9E%8B.ipynb准备开始慢慢转github了,把上次初赛的代码相关也整理了一下,供大家参考...

2019-09-14 14:07:44 356

原创 VBA:通过数组和字典快速填充数字

前言:最近有一项新工作,需要填充如下的表格上面只是一个代理商而已,而同样的代理商有十几家。传统的做法就是做好数据处理后,通过vlookup匹配填充。稍微方便一点的是调整好格式后直接复制黏贴,但是因为不是每个代理商每个月都有这么多佣金类型的,所以可能会出错。当然用power query固定化模板后也是可以操作的,但是我想试试VBA,所以写了以下的代码,通过数组和字典快速填充数字。Sub 数据快...

2019-09-12 09:57:16 3278

原创 数据挖掘:智慧教育竞赛复盘

前言:最近一个月都在参加上海电信主办的智慧教育竞赛,虽然侥幸通过了初赛,但是复赛和初赛犯了一个同样的错误,导致过拟合严重排名从public榜的第7名一落千丈到了private榜的第11名。所以今天写这篇文章,主要是复盘,一来记录自己这一个月以来的辛勤成果,二来也让自己警醒,不要再犯同类的错误。一、竞赛题目随着人工智能(AI)的发展,“AI+教育”“智慧课堂”等名词逐渐出现在大众视野,越来越多的...

2019-09-06 21:05:36 1156 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除