2017年06月_Lenskit

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 python——使用itemgetter和sorted对列表内的元素进行排序

参考文章http://www.cnblogs.com/100thMountain/p/4719503.html胡哥在疯狂阅读deep walk之类的算法和论文，下了python包，看源码。突然喊我：诶，kf，你看这个。我一看，是以前没见过的itemgetter用法。itemgetter和sorted很适合于列表循环，比如：score = [('A',80),('B',82),('C

2017-06-29 20:27:32 1498

原创 Django——session登录以及页面取值

上一篇中，我们用最简单的方法实现了登陆，但是真实的开发中肯定不现实，我们需要使用session来保存我们需要的数据，并在需要的时候显示在页面上。我们的登陆代码变成了：def checkuser(request): if request.method == 'POST': user = request.POST.get('username') passwd = request.PO

2017-06-23 18:20:16 12781 2

原创 hadoop集群之间的文件拷贝——distcp

之前部门迁移hadoop，涉及到hive表的重建，以及hdfs上文件的迁移，还有oozie任务的修改。 hive重建表比较简单，首先show create table tablename;然后把建表语句拷贝下来即可，这里要注意的是，最好把stored as XXX语句也加上。一开始我没加，还出了错，因为两个hadoop集群的hive建表时的默认的存储格式不一致。 hdfs的数据

2017-06-22 11:45:23 5337

原创 Django——登陆模块的简单实现

本文仅介绍最简单的登陆功能，希望能对初学者有所帮助。首先，我们在templates目录下新建一个login.html，并加入如下代码：

2017-06-19 18:29:46 1816

原创 postgre的数组使用

今天受益匪浅，抛砖引出了大神的玉。我的砖如下： A表，字段有id,name和words，words字段以"|"为分隔符，如下： B表，字段为words和numbers，但是words字段有所不同，具体如下：需求为：通过表B中的“董事”或者“投资”或者“债券”或者其他词，此处我们默认按B表的number字段排序，limit3，然后去表A匹配出

2017-06-12 19:34:48 2728

原创嫌pandas的to_sql方法过慢？神方法让你一分钟搞定

本来50万条数据，使用pd.tosql方法，设置chunksize=2000，跑了5个小时。而上面这个方法，插40万条数据，只需1分钟。

2017-06-08 11:22:01 33480 23

原创 django设置中文时区

一开始写成LANGUAGE_CODE = 'zh-CN'TIME_ZONE = 'Asia/Beijing'但是报错ValueError: Incorrect timezone setting: Asia/Beijing改成TIME_ZONE = 'Asia/Shanghai'最后改成LANGUAGE_CODE = 'zh-Hans'TIME_Z

2017-06-06 22:02:34 7446 1

原创 python——修改Dataframe列名的两种方法

首先新建一个Dataframeimport pandas as pddf = pd.DataFrame({'a':[1,2,3],'b':[1,2,3]})如下： a b0 1 11 2 22 3 31、修改列名a，b为A、B。df.columns = ['A','B']2、只修改列名a为A

2017-06-02 20:51:01 352906 16

waffles工具

Waffles 英文原意是蜂蜜甜饼，在这里却指代一个非常强大的机器学习的开源工具包。Waffles里包含的算法特别多，涉及机器学习的方方面面，推荐系统位于其中的Waffles_recommend tool，大概只占整个Waffles的1/10的内容，其它还有分类、聚类、采样、降维、数据可视化、音频处理等许许多多工具包，估计能与之媲美的也就数Weka了。

2016-04-07

最新的SVDFeature工具，里面还有我自己找的几篇manual。一个feature-based协同过滤和排序工具，由上海交大Apex实验室开发，代码质量较高。在KDD Cup 2012中获得第一名，KDD Cup 2011中获得第三名，相关论文发表在2012的JMLR中，这足以说明它的高大上。 SVDFeature 包含一个很灵活的Matrix Factorization推荐框架，能方便的实现SVD、SVD++等方法, 是单模型推荐算法中精度最高的一种。SVDFeature代码精炼，可以用相对较少的内存实现较大规模的单机版矩阵分解运算。另外含有Logistic regression的model，可以很方便的用来进行ensemble。

2016-04-07

TA关注的人

Lenskit

原创 python——使用itemgetter和sorted对列表内的元素进行排序

原创 Django——session登录以及页面取值

原创 hadoop集群之间的文件拷贝——distcp

原创 Django——登陆模块的简单实现

原创 postgre的数组使用

原创嫌pandas的to_sql方法过慢？神方法让你一分钟搞定

原创 django设置中文时区

原创 python——修改Dataframe列名的两种方法

scala安装包

算法导论中文版

集体智慧编程searchindex.db

waffles工具

SVDFeature

win32 简单计算器

jieba分词的停用此表，为什么对英文不起作用？

关于lenskit 跑的时候出了点问题