自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

转载 【爬虫】Content-Type

在爬虫中向服务器发起一个GET请求的时候在服务器返回的信息头中会表示Content-Type。 其实它就是代表我们所访问的资源的类型。如果是Html文件则Content-Type的值未text/html 等等,下面是在网上找到的其它类型的值分别代表的含义。如果以后的爬虫想要爬取音频文件等信息时,我想至少应该判断下content-type,至于再往下怎么做还有待于研究。下面时MIME标准中定义的类型...

2018-03-13 17:05:42 2122

转载 【DataFrame】DataFrame操作

创建一个DataFrame,它有几种创建方式:列表,序列(pandas.Series), numpy.ndarray的字典二维numpy.ndarray别的DataFrame结构化的记录(structured arrays)其中,我最喜欢的是通过二维ndarray创建DataFrame,因为代码敲得最少:12345678import pandas as pdimport numpy as npdf...

2018-03-06 15:41:49 2188

转载 【算法_调参】sklearn_GridSearchCV,CV调节超参使用方法

GridSearchCV 简介:GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调...

2018-03-06 11:09:19 3454

转载 【数据预处理】样本不均匀

不均匀正负样本分布下的机器学习 工业界机器学习典型问题:正负样本分布极不均匀(通常<1:10000),有什么较好的方案构造训练集的正负样本分布?构造后如何解决训练数据与预测的分布不一致? 上采样、下采样、代价敏感,没什么好办法。这个之前调研过,主要分重采样和欠采样!这种不平衡是因为比率的不平衡给一些学习方法带来问题。但是在某些领域,比如反欺诈和安全,不仅是比率极不平衡,而且是正样本样本绝对数...

2018-03-06 09:44:40 6531

骚扰电话推销电话拦截数据库(15w)

骚扰电话推销电话拦截数据库,15万条,更新至2017年9月

2018-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除