- 博客(13)
- 收藏
- 关注
转载 近半年所踩的坑的总结
1.算法(数学)原理重要不重要? 不重要。因为不懂数学,你也可以把数据扔进Sas,选择一个名字看起来有逼格的算法,然后CPU煎个鸡蛋,结果就出来了,还能配上不明觉厉的图形化结果。更有逼格的,网上搜一下'R/Python xxxx算法代码',再吃个煎鸡蛋,结果也出来了。塞到TableAU搞一下,打完收工! /摊手 不重要。因为不同算法,对同一套测试数据来说,结果都...
2017-07-15 01:06:00 141
转载 CentOS上安装Hadoop2.7,添加数据节点,运行wordcount
安装hadoop的步骤比较繁琐,但是并不难。 在CentOS上安装Hadoop2.7 1. 安装 CentOS,注:图形界面并无必要 2. 在CentOS里设置静态IP,手工编辑如下4个文件 /etc/hosts /etc/sysconfig/netwok /etc/hostname /etc/sysconfig/network-scripts/ifcfg-eno167...
2017-07-07 00:12:00 123
转载 在SCIKIT中做PCA 逆变换 -- 新旧特征转换
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 在Scikit中运用PCA很简单: import numpy as np from sklearn import decomposition from sklearn im...
2017-05-08 00:32:00 863
转载 特征工程之应用业务知识(保险)
1. 可通过其他属性推断一些缺失值: 缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。 某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性; 费率可以推测被保人的性别,年龄 一般来说,吸烟者都会在系统中有标识,所以没有标志的可认定为不吸烟者 根据职业也可推测性别 Modal/A...
2017-05-04 00:56:00 129
转载 随机森林 - 寿险客户信息分析
注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码 目标: 个险客户特征分析 建模过程: 输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等. ...
2016-12-04 23:16:00 263
转载 决策树 - 熵,信息增益的计算
故事从一条小学数学题说起 "爸爸,熊猫为什么是3个不是11个" "宝贝,你还没学二进制好吗....." 以上故事纯属虚构,真实的对话其实是这样的 "爸爸, 为什么3比4小" "宝贝,数一下就知道啦。你看猪猪有1,2,3. 3个, 小鸟有1,2,3,4.4个.你看小鸟是不是比猪猪多? 所以3比4小" 为什么我们要用十进制? 我们当然明白十进制是为了把世界描述为在数学...
2016-11-30 20:43:00 174
转载 ORA-00911: invalid character --- 字符集的问题
网上搜了一遍, 大多数是因为分号( ; ) 的问题. 而我的sql文件是没有分号的, 最后发现是sql文件编码和服务器字符集的差异造成 sql文件怎么都看不出问题,直到在UltraEdit里切换到16进制模式下才发现有些怪字符, 文件编码是UTF-8 然而服务器的字符集是TH8TISASCII select userenv('language') from dua...
2016-11-15 20:32:00 108
转载 足球游戏论坛数据分析--简单粗暴的K均值聚类
在<<足球游戏论坛数据分析--简单粗暴的贝叶斯>>中尝试了贴标签后,一直觉得结果无法接受, 慢慢回想, 其实选择的算法是错误的,原因有 论坛帖子分类并非就是PC/PS/XBOX这么简单 即使是作者自己贴的标签,也存在挂羊头的可能性 既然没法简单的给帖子分类,那么就尝试一下聚类算法看看有没有发现: #事先已经把分好词的所有文本存成一个...
2016-11-07 23:56:00 238
转载 fetch_20newsgroups 数据集导入失败: no handlers could be fetch_20newsgroups
最简单的办法 下载'20news-bydate.pkz', 放到C:\\Users\[Current user]\scikit_learn_data 下边就行. 实际上 scikit learning默认的路径是C:\\Users\[Current user]\scikit_learn_data 也可以添加环境变量'SCIKIT_LEARN_DATA', 程序会在环境变量设...
2016-11-04 22:47:00 392
转载 足球游戏论坛数据分析--简单粗暴的贝叶斯
前些日子入了PS4的某著名游戏2017, 寻小妖刷ML中. 不得不说刚开始的时候,涛哥坤哥的解说感觉颇为带感. 一个月后...还是关音量吧,解说词太贫乏了 在寻小妖的过程中, 突发奇想看看某著名论坛的数据有没有什么特别的地方,于是scrapy走起... 被服务器ban了几次后, 扒拉下来2w多主贴,30多w回帖存入sqlite数据库 [数据清洗] 使用xpath清洗HTML代...
2016-11-02 19:26:00 502
转载 List tuple 类型转成数组
SKlearning大部分的输入数据都是M * N数组. 然而我们从数据库或文件读取得来的通常是Python内定的类型tuple或list 它们的优势就不说了,但是直接把list或tuple构成的二维数组传入scikit是会出问题的. 如: DeprecationWarning: Passing 1d arrays as data is deprecated in 0...
2016-10-28 17:41:00 257
转载 解决: DeprecationWarning: Passing 1d arrays as data is deprecated in 0.17 and will raise ValueError in...
错误信息:C:\Python27\lib\site-packages\sklearn\utils\validation.py:395: DeprecationWarning: Passing 1d arrays as data is deprecated in 0.17 and will raise ValueError in 0.19. Reshape your data either...
2016-10-27 17:41:00 225
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人