自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 【机器学习】决策树学习笔记

决策树属于传统监督学习中的分类算法,现如今的很多专家系统亦采用决策树算法实现。其根本原理是使得信息增益最大化,也即熵最小化。计算熵的公式为:p(x)为某分类出现的概率。举个极端的例子,数据集里所有数据都属于同一分类A,那么p(A)=1,所以熵为0。如果有这样一个数据集 [A, A, A, B], 那么其熵为: -(3/4log(3/4, 2)+1/4log(1/4, 2))=0.8113。假...

2019-07-09 21:45:27 187

原创 【机器学习】解决过拟合的几种方法 (Overfitting Solutions)

最近学习吴恩达教授的一些课程,其中提到解决过拟合的四种方法。我们从易到难逐一讨论:增加训练集通常training set不是很丰富的情况下,更容易出现过拟合状况。但是label更多的数据也不是能够快速达成的事情。因此这个方法主要适合于图像识别领域,可以通过distortion人为的增加训练集,从而减轻overfitting。Early stop这个比较容易理解,训练的越久,trai...

2019-07-03 22:03:16 735

原创 【pandas】利用merge实现百倍加速

对于非连续数据集,数据可视化时候需要每七天一个采样点。要求是选择此前最新的数据作为当日的数据展示,譬如今天是2019-06-18,而数据集里只有2019-06-15,那就用2019-06-15的数据作为2019-06-18的数据去描点。每七天一个采样点,会使得每天展示所选的数据都会有所不同。当时间往后推移一天,日期为2019-06-19,那么最新数据点从2019-06-19开始,第二个就是201...

2019-06-18 15:47:13 3811

原创 【pandas】如何百倍加速实现nlargest同样功能

之前在项目中遇到一个需求,提取出每天多笔数据中的最新一笔数据作为当天的数据呈现出来。例如有如下数据: date tile clus type col_type level value2019-05-13 10:39:49 t2 ME ALL total csim 12962019-05-13 11:21:41 t2 ME ...

2019-05-31 18:42:00 1147

原创 【pandas】踩了merge操作的一个坑

最近一个上线半年的爬虫挂了,错误信息如题,挂在了一个dataframe的merge操作上。仔细看了看源代码,这个merge操作非常简单,目的只是想看两个数据集中date(%Y-%m-%d %H-%M-%S)交集,然后再决定下一步的操作。首先怀疑数据量随着时间推移变得很大,得分块操作了。但是查了一下当下的数据量,两个dataframe都只有几十万行,数据量并不是很大,反而Jenkins serve...

2019-05-31 16:58:10 5296 2

原创 django.db.utils.OperationalError: (1050, 'Unknown error 1050')

今天在调试test时候遇到了这个error,用的是django自带的测试方法。直接起django server是没有问题的,只有跑test才会有这个错。stackoverflow上也查询了类似问题的解决方法,没有帮助。最后根据另外一条信息定位了一个空table,删除了那个空table (SCSConfig) 和对应的model后就好了。schedule schedule scsconfig {...

2019-05-29 16:55:27 629

原创 【Django】Model query转换成Dataframe时,如何减少50%的内存消耗

通常我们在Django framework里去取DB的数据做处理时,会用values()这个function,然后直接转换成dataframe。假设需要取整个table的数据,简单粗暴的写法如下: querySet = models.xxx.objects.all().using("db_name").values() df = pd.DataFrame(list(quer...

2019-05-29 11:00:15 2071

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除