python
ElsaRememberAllBug
这个作者很懒,什么都没留下…
展开
-
sublim不显示结果,搭建python环境
a) Sublime could not show resultsQ: Environment is not builtA: tools-build system-new build system, then write{ "cmd":["D:/python-3.6.3.exe","-u","$file"], "file_regex":"^[]*file \"(.原创 2017-12-12 16:41:24 · 550 阅读 · 0 评论 -
python数据分析--导入数据
1、读取指定路径的数据读取json类型数据,注意python2和python3的路径表示不一样,我使用的python3中使用 \\ ,而python2中使用反斜杠 /import jsonpath='E:\\DataAnalysis\\pydata-book\\pydata-book-1st-edition\\ch02\\usagov_bitly_data2012-03-16-133...原创 2018-08-05 23:53:10 · 454 阅读 · 0 评论 -
python 合并数据表
读取列表 import pandas as pdunames=['user_id','gender','age','occupation','zip'] users=pd.read_table('E:/DataAnalysis/pydata-book/pydata-book-1st-edition/ch02/movielens/users.dat',sep='::',header...原创 2018-08-07 00:22:08 · 605 阅读 · 0 评论 -
pandas随机抽样
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)n是要抽取的行数。(例如n=20000时,抽取其中的2W行)frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,...转载 2019-02-13 11:16:16 · 1414 阅读 · 0 评论 -
推荐算法(一) GBDT+LR
推荐算法(一) GBDT+LR原创 2019-03-20 15:36:10 · 802 阅读 · 0 评论 -
推荐算法 (二) 微软开源项目
推荐算法 (二) 微软开源项目原创 2019-03-20 15:38:49 · 657 阅读 · 0 评论 -
推荐算法(三)基于标签的算法--CTR预估
1、在工业界,数据量非常大,如果用pandas读入,虽然方便后续数据操作,但占用内存过多。工业界一般存储稀疏数据用LIBSVM。2、在进行建模前,先进行探索,删除脏数据,分析下各个特征的初步效果;对不均衡的样本,下采样,然后有多个分类器,通过bagging合并。3、在排序ranking场景下,评估指标经常是AUC4 时间预处理:映射为不同的时间段5、如果某一列的类别太多,(1)先做...原创 2019-03-20 15:39:26 · 555 阅读 · 0 评论