2018年03月_jason7323

05月 04月 03月

转载【爬虫】Content-Type

在爬虫中向服务器发起一个GET请求的时候在服务器返回的信息头中会表示Content-Type。其实它就是代表我们所访问的资源的类型。如果是Html文件则Content-Type的值未text/html 等等，下面是在网上找到的其它类型的值分别代表的含义。如果以后的爬虫想要爬取音频文件等信息时，我想至少应该判断下content-type，至于再往下怎么做还有待于研究。下面时MIME标准中定义的类型...

2018-03-13 17:05:42 2122

转载【DataFrame】DataFrame操作

创建一个DataFrame，它有几种创建方式：列表，序列(pandas.Series), numpy.ndarray的字典二维numpy.ndarray别的DataFrame结构化的记录(structured arrays)其中，我最喜欢的是通过二维ndarray创建DataFrame，因为代码敲得最少：12345678import pandas as pdimport numpy as npdf...

2018-03-06 15:41:49 2188

转载【算法_调参】sklearn_GridSearchCV,CV调节超参使用方法

GridSearchCV 简介：GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法：拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调...

2018-03-06 11:09:19 3454

转载【数据预处理】样本不均匀

不均匀正负样本分布下的机器学习工业界机器学习典型问题:正负样本分布极不均匀(通常<1:10000），有什么较好的方案构造训练集的正负样本分布？构造后如何解决训练数据与预测的分布不一致？上采样、下采样、代价敏感，没什么好办法。这个之前调研过，主要分重采样和欠采样！这种不平衡是因为比率的不平衡给一些学习方法带来问题。但是在某些领域，比如反欺诈和安全，不仅是比率极不平衡，而且是正样本样本绝对数...

2018-03-06 09:44:40 6531

骚扰电话推销电话拦截数据库(15w)

骚扰电话推销电话拦截数据库，15万条，更新至2017年9月

2018-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 【爬虫】Content-Type

转载 【DataFrame】DataFrame操作

转载 【算法_调参】sklearn_GridSearchCV,CV调节超参使用方法