自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 近半年所踩的坑的总结

1.算法(数学)原理重要不重要?不重要。因为不懂数学,你也可以把数据扔进Sas,选择一个名字看起来有逼格的算法,然后CPU煎个鸡蛋,结果就出来了,还能配上不明觉厉的图形化结果。更有逼格的,网上搜一下'R/Python xxxx算法代码',再吃个煎鸡蛋,结果也出来了。塞到TableAU搞一下,打完收工! /摊手不重要。因为不同算法,对同一套测试数据来说,结果都...

2017-07-15 01:06:00 122

转载 CentOS上安装Hadoop2.7,添加数据节点,运行wordcount

安装hadoop的步骤比较繁琐,但是并不难。在CentOS上安装Hadoop2.71. 安装 CentOS,注:图形界面并无必要2. 在CentOS里设置静态IP,手工编辑如下4个文件/etc/hosts/etc/sysconfig/netwok/etc/hostname/etc/sysconfig/network-scripts/ifcfg-eno167...

2017-07-07 00:12:00 99

转载 在SCIKIT中做PCA 逆变换 -- 新旧特征转换

PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。在Scikit中运用PCA很简单:import numpy as npfrom sklearn import decompositionfrom sklearn im...

2017-05-08 00:32:00 775

转载 特征工程之应用业务知识(保险)

1. 可通过其他属性推断一些缺失值:缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性;费率可以推测被保人的性别,年龄一般来说,吸烟者都会在系统中有标识,所以没有标志的可认定为不吸烟者根据职业也可推测性别Modal/A...

2017-05-04 00:56:00 107

转载 随机森林 - 寿险客户信息分析

注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码目标: 个险客户特征分析建模过程:输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等....

2016-12-04 23:16:00 243

转载 决策树 - 熵,信息增益的计算

故事从一条小学数学题说起"爸爸,熊猫为什么是3个不是11个""宝贝,你还没学二进制好吗....."以上故事纯属虚构,真实的对话其实是这样的"爸爸, 为什么3比4小""宝贝,数一下就知道啦。你看猪猪有1,2,3. 3个, 小鸟有1,2,3,4.4个.你看小鸟是不是比猪猪多? 所以3比4小"为什么我们要用十进制? 我们当然明白十进制是为了把世界描述为在数学...

2016-11-30 20:43:00 151

转载 ORA-00911: invalid character --- 字符集的问题

网上搜了一遍, 大多数是因为分号( ; ) 的问题. 而我的sql文件是没有分号的, 最后发现是sql文件编码和服务器字符集的差异造成sql文件怎么都看不出问题,直到在UltraEdit里切换到16进制模式下才发现有些怪字符, 文件编码是UTF-8然而服务器的字符集是TH8TISASCIIselect userenv('language') from dua...

2016-11-15 20:32:00 90

转载 足球游戏论坛数据分析--简单粗暴的K均值聚类

在<<足球游戏论坛数据分析--简单粗暴的贝叶斯>>中尝试了贴标签后,一直觉得结果无法接受, 慢慢回想, 其实选择的算法是错误的,原因有论坛帖子分类并非就是PC/PS/XBOX这么简单即使是作者自己贴的标签,也存在挂羊头的可能性既然没法简单的给帖子分类,那么就尝试一下聚类算法看看有没有发现: #事先已经把分好词的所有文本存成一个...

2016-11-07 23:56:00 222

转载 [转]选择合适的机器学习算法

转载于:https://www.cnblogs.com/okokok/p/6034938.html

2016-11-06 11:23:00 85

转载 fetch_20newsgroups 数据集导入失败: no handlers could be fetch_20newsgroups

最简单的办法下载'20news-bydate.pkz', 放到C:\\Users\[Current user]\scikit_learn_data 下边就行.实际上scikit learning默认的路径是C:\\Users\[Current user]\scikit_learn_data也可以添加环境变量'SCIKIT_LEARN_DATA', 程序会在环境变量设...

2016-11-04 22:47:00 332

转载 足球游戏论坛数据分析--简单粗暴的贝叶斯

前些日子入了PS4的某著名游戏2017, 寻小妖刷ML中. 不得不说刚开始的时候,涛哥坤哥的解说感觉颇为带感. 一个月后...还是关音量吧,解说词太贫乏了在寻小妖的过程中, 突发奇想看看某著名论坛的数据有没有什么特别的地方,于是scrapy走起...被服务器ban了几次后, 扒拉下来2w多主贴,30多w回帖存入sqlite数据库[数据清洗]使用xpath清洗HTML代...

2016-11-02 19:26:00 446

转载 List tuple 类型转成数组

SKlearning大部分的输入数据都是M * N数组.然而我们从数据库或文件读取得来的通常是Python内定的类型tuple或list它们的优势就不说了,但是直接把list或tuple构成的二维数组传入scikit是会出问题的.如:DeprecationWarning: Passing 1d arrays as data is deprecated in 0...

2016-10-28 17:41:00 236

转载 解决: DeprecationWarning: Passing 1d arrays as data is deprecated in 0.17 and will raise ValueError in...

错误信息:C:\Python27\lib\site-packages\sklearn\utils\validation.py:395: DeprecationWarning: Passing 1d arrays as data is deprecated in 0.17 and will raise ValueError in 0.19. Reshape your data either...

2016-10-27 17:41:00 194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除