- 博客(4)
- 资源 (1)
- 收藏
- 关注
转载 【爬虫】Content-Type
在爬虫中向服务器发起一个GET请求的时候在服务器返回的信息头中会表示Content-Type。 其实它就是代表我们所访问的资源的类型。如果是Html文件则Content-Type的值未text/html 等等,下面是在网上找到的其它类型的值分别代表的含义。如果以后的爬虫想要爬取音频文件等信息时,我想至少应该判断下content-type,至于再往下怎么做还有待于研究。下面时MIME标准中定义的类型...
2018-03-13 17:05:42 2122
转载 【DataFrame】DataFrame操作
创建一个DataFrame,它有几种创建方式:列表,序列(pandas.Series), numpy.ndarray的字典二维numpy.ndarray别的DataFrame结构化的记录(structured arrays)其中,我最喜欢的是通过二维ndarray创建DataFrame,因为代码敲得最少:12345678import pandas as pdimport numpy as npdf...
2018-03-06 15:41:49 2188
转载 【算法_调参】sklearn_GridSearchCV,CV调节超参使用方法
GridSearchCV 简介:GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调...
2018-03-06 11:09:19 3454
转载 【数据预处理】样本不均匀
不均匀正负样本分布下的机器学习 工业界机器学习典型问题:正负样本分布极不均匀(通常<1:10000),有什么较好的方案构造训练集的正负样本分布?构造后如何解决训练数据与预测的分布不一致? 上采样、下采样、代价敏感,没什么好办法。这个之前调研过,主要分重采样和欠采样!这种不平衡是因为比率的不平衡给一些学习方法带来问题。但是在某些领域,比如反欺诈和安全,不仅是比率极不平衡,而且是正样本样本绝对数...
2018-03-06 09:44:40 6531
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人