关闭

编译vim8

从git上下载vim8源码  解压./configure  --enable-gui=no --with-features=huge --without-x --with-tlib=tinfo --disable-nls --enable-multibyte  --with-tlib=ncurses --enable-perlinterp --enable-pythoninterp  --enab...
阅读(50) 评论(0)

linux系统 终端下 cat中文乱码/vim不乱码 或者 cat不乱码/vim中文乱码

场景:在linux系统终端内,用cat查看中文文档乱码,同一文件利用vim查看不乱码。(secureCRT窗口编码为utf-8) 用cat查看中文文档不乱码,同一文件利用vim查看乱码。(secureCRT窗口编码为gb2312) 分析:两种情况分别乱码,因此判定cat与vim利用了不同的解码方式,导致发生该种情况。 解决方法:更改vim解析文件编码。 vimrc中可以设置...
阅读(720) 评论(0)

2016.09 找工作总结

从8月到9月,正好一个月,找工作结束,真的是心累的一个月。写一写这段时间的心路历程吧,也希望看到这篇文章的同学坚持下来,尽管找工作很累(身体+心灵),但是坚持就会有好的收获。这篇文章不会涉及面试具体问题,主要是分析分析ML工作面试官都看重什么,但仅仅是个人意见仅供参考。 工作方向:机器学习/数据挖掘 语言:C/C++ python 技能树:逻辑回归、随机森林、GBDT、XGBOOST等基本模...
阅读(365) 评论(0)

pandas append性能问题

实际场景:向pandas.Dataframe中添加n条数据 利用pandas.append方法一条一条向其中添加数据,很慢(我向pandas.Dataframe中添加16*715条数据,pc跑了一晚上) 解决方法:利用list将数据封装好,然后再一起加入pandas中 测试样例: import random import timeit import pandas as pd...
阅读(1781) 评论(0)

ubuntu git利用ssh进行push(无需用户名&&密码)

1.根据github官方文档生成ssh,将ssh加入ssh-agent并复制到github个人settings中 2.根据github官方文档 更改已有的Repositories的remote方式。 $git remote set-url origin git@github.com:USERNAME/OTHERREPOSITORY.git...
阅读(811) 评论(0)

kaggle 入门 rossmann xgboost

对商店的某天进行销量预测 这个特征处理得很好,用上一个特征进行xgboost得到0.32的成绩,换成该特征得到0.14的成绩 特征: Open为空赋为1 train中只看open为1且sales>0的记录 合并store和train&test 所有空值填0 'StoreType', 'Assortment', 'StateHoliday'中将0abcd变为01234 从日期中抽...
阅读(2156) 评论(0)

kaggle 入门 rossmann randomForest

预测给定日期的销量 特征: 对train和test数据: Open为空的都默认为1 从日期中提取Day Month StateHoliday除了0为0外,其他都变为1 对store数据: StoreType/Assortment 变哑变量 CompetitionDistance 填充0/标准化 CompetitionOpenSinceYear 填充0/更改 然后...
阅读(834) 评论(0)

windows64 CPU python2.7 安装theano & keras

根据这里 完成安装了theano包 1. 从gitbub上下载并解压theano  地址 2. 在cmd中, 执行"conda install mingw libpython". 这将安装mingw g++ 和libpython (前提安装了Anaconda) 3. 在cmd中, 进入解压后的theano目录中执行"python setup.py install --record f...
阅读(1637) 评论(0)

kaggle 入门 Bike sharing Demand prediction

根据天气等因素对自行车租赁数量进行预测 利用xgboost进行预测 import csv from math import log, exp import numpy __author__ = 'Whiker' __mtime__ = '2016/5/26' from datetime import datetime import pandas import xgboost def...
阅读(948) 评论(2)

Kaggle 入门 Crime

对犯罪案件进行分类 提交每个类别概率 xgboost成绩 2.35461feature: Category用preprocessing.labelEncoder()转成int型有序变量 时间抽出年月日时分,分钟根据时间对称性abs(m-30) 地址判断是否包含’/’ XY进行标准化 区域和DOW变为哑变量 xgboost参数: “booster”: “gbtre...
阅读(659) 评论(0)

kaggle 入门 digit recognizer python randomForestClassifier

kaggl之101新手赛digit recognizer利用python的sklearn包中的randomForestClassifier进行分类 import pandas, numpy from sklearn.ensemble import RandomForestClassifier dataset = pandas.read_csv("...\\data\\train.csv...
阅读(857) 评论(0)

kaggle 入门 digit recognizer Python xgboost

# coding:utf-8 import numpy __author__ = 'WHP' __mtime__ = '2016/5/12' __name__ = '' import xgboost import pandas import time now = time.time() dataset = pandas.read_csv("...input\\train.csv") tra...
阅读(1156) 评论(0)

python 中 xgboost 安装

针对 下载并利用VS2013编译xgboost后安装失败,进行其他方法安装。 下载安装 MinGW-64: http://sourceforge.net/projects/mingw-w64/     (PC中未安装MinGW的话)在安装界面 Architecture 选择 x86_64  以及 Threads 选择 win32若安装在 C:\mingw64  则添加PATH...
阅读(4945) 评论(2)

从1到n整数中1出现的次数

求解:从1到n整数中1出现的次数。比如n=12时,1、10、11、12共出现了5个1. 这是剑指offer的一道题,但是在网上看到了一个精妙的解法。 解: 个位出现的次数=n/10           + (个位数>1时:+1)     + (个位数==1时:+1) 十位出现的次数=n/100*10    + (十位数>1时:+10)   +(十位数==1时:+n%10+1) 百位出...
阅读(236) 评论(0)

N-gram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串...
阅读(263) 评论(0)

冰山查询

原文地址 在数据仓库领域有一个概念叫Iceberg query,中文一般翻译为“冰山查询”。冰山查询在一个属性或属性集上计算一个聚集函数,以找出大于某个指定阈值的聚集值。 以销售数据为例,你想产生这样的一个顾客-商品对的列表,这些顾客购买商品的数量达到3件或更多。这可以用下面的冰山查询表示: Select        P.cust_ID, P.item_ID, SUM(P.qty) ...
阅读(312) 评论(0)

关联挖掘算法FP-Tree

转载地址 原文很详细 请移步原文 FPTree算法的基本数据结构,包含一个一棵FP树和一个项头表,每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序,在FPTree中高支持度的节点只能是低支持度节点的祖先节点。 另外还要交代一下FPTree算法中几个基本的概念: FP-Tree:就是上面的那棵树,是把事务数据...
阅读(686) 评论(0)

Apriori算法详解

一、Apriori算法简介:   Apriori算法是一种挖掘关联规则的频繁项集算法 用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。 二、实现步骤 Apriori算法是一种最有影响的挖掘...
阅读(535) 评论(0)

java 模拟浏览器登陆sina微博

总共三次请求:第一次目的获取 nonce servertime pubkey rsakv pcid第二次目的获取 ticket loginUrl第三次目的获取 Cookie 1.将用户名先urlencode编码再Base64Encode编码2.根据http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSO...
阅读(2557) 评论(9)

Hadoop2.6+HA+Zookeeper3.4.6+Hbase1.0.0安装

Hadoop2.6+HA+Zookeeper3.4.6+Hbase1.0.0安装Author : WHP 安装hadoop2.6+HA 1.准备一台CentOS6.4系统2.环境CentOS6.4 共5台 机器名 ip地址 安装软件 运行进程 maste...
阅读(12055) 评论(0)
181条 共10页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:192305次
    • 积分:3437
    • 等级:
    • 排名:第10692名
    • 原创:163篇
    • 转载:17篇
    • 译文:0篇
    • 评论:37条
    文章分类
    最新评论