- 博客(386)
- 资源 (40)
- 收藏
- 关注
原创 新闻个性化推荐系统(python)-(附源码 数据集)
1.背景 最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编...
2014-09-25 08:32:55 43401 43
原创 写给师弟师妹的一封信-论在校程序员的学习方向
这是我给研究生刚入学的师弟师妹们的一封信,分享给大家吧Hi dear team-members: 我们的项目已经接近尾声,过一段我会去成都把项目部署完成。感谢大家这段时间的辛苦工作。 发这个邮件的原因,是我不知道大家是否在等待我来部署任务,或是可以自主的学习。 首先我想说的事情是,不要指望做好实验室的项目就会找到好的工作;不要指望在
2014-09-24 13:41:54 3100 3
转载 【问底】严澜:数据挖掘入门——分词
谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头也在积极布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,着实难以下手、非常头大!我们不妨先跳过数学公式,看
2014-09-14 10:47:26 2365 1
原创 Android系统截屏的实现(附代码)
1.背景 写博客快两年了,写了100+的文章,最火的文章也是大家最关注的就是如何实现android系统截屏。其实我们google android_screen_shot就会找到很对办法,但那些都是很多年前的了,在android4.*版本后,android对于源码进行了更正,使得以前的方法都不能够使用。 感谢cjd6568358这名网友,我们一起讨论,最终由他实现了a
2014-09-09 14:51:02 28590 42
原创 ospaf-开源项目成熟度分析工具
1.概述软件成熟度评估的最终目标是帮助软件的可持续发展,并为用户应用提供必要的技术参考。开放源代码软件成熟度评估也不例外。我们通过软件的成熟度评估,形成全面的涉及技术、应用、法律等层面的评价报告,帮助那些正在或潜在的开源软件使用者准确的了解软件的技术特性和应用特性,从而为他们选择适合自身需求的开源软件提供参考。同时报告中涉及的大量评测数据,为开源软件的开发者提供帮助,促进他们有效的改善软件在技术方
2014-09-05 10:22:27 3157
原创 github关联域名,创建个人网站教程终结篇
1.背景 最近心血来潮,买了一个域名,本来要买fuckgfw的,没想到被抢注了。就拿自己的英文名买了一个,叫做www.garvinli.com。因为知道会有很多朋友不太清楚整个网站搭建的过程,所以在这里贴出之前的一些列教程。有的是两年前写的,比较稚嫩哈!手把手教您制作并发布个人网站或主页(一)(图解教程针对小白)如何在github发布个人网站或开源项目-手把手教您制作并发布个人网站
2014-08-28 15:13:46 2984 3
原创 【Android-tips】 Unable to execute dex: Multiple dex files define 解决方法
唔,之前已经想过今后不动android,没想到还是因为比赛的原因重操旧业。android有很多问题是由于eclipse的不完善造成的,比如今天遇到的这个问题 Unable to execute dex: Multiple dex files define[2011-10-23 16:23:29 - Dex Loader] Unable to execute dex: Multiple dex fi
2014-08-26 22:06:24 4371
原创 【机器学习算法-python实现】最大似然估计(Maximum Likelihood)
1.背景 最大似然估计是概率论中常常涉及到的一种统计方法。大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性。当然最大似然可以有很多变化,这里实现一种简单的,实际项目需要的时候可以再更改。 博主是参照wiki来学习的,地址请点击我 这里实现的是特别简单的例子如下(摘自wiki的最大似然)离散分布,离散
2014-08-25 11:09:02 27027 2
原创 【git学习五】git基础之git分支
1.背景 最早用github的时候,我傻傻的问舍友大神,git里面的branch是干什么的,他用了很直白的解释,我至今还记得。“branch就是你可以自己建立一个分支,随便乱搞而不影响整个项目”。git分支应该是git最nb的特色吧,分支的建立和合并都十分方便。 大体的原理是这样的(图借用progit),比如说我们有一个master,还有一个分支是
2014-08-20 10:58:26 2082
原创 【git学习四】git基础之git为项目打标签
1.背景 今天学习了下如何给项目打标签,为此项目的修改标记版本号,然后可以直接推送版本号到服务器上,方便了很多,而且便于对项目进行管理。2.打标签 1.查询已有标签,可以使用git tag命令,查询某个特定版本可以git tag -l 'v*'git tag 2.为版本创建标签git tag -a v1.4 -m 'my version
2014-08-18 14:05:50 2039
原创 【git学习二】git基础之git管理本地项目
1.背景 git基础打算分两部分来说,一部分是对于本地项目的管理,第二部分是对于远程代码仓库的操作。git执行本地项目管理包括对于相关文件的追踪,暂存区的比较分析,提交,撤销等功能。2.本地项目管理 首先mkdir一个文件夹,叫做GitTestFile,然后执行下面代码,创建git的管理配置git init 接着加入如下代码,git add . ,把项目加入跟
2014-08-17 11:17:19 2058
原创 【git学习一】git的原理
1.背景 git是比较流行的版本管理软件,博主才疏学浅,到目前为止只用过svn和git。虽然git也用了较长时间了,但是还是没有深入学习过,这周打算阅读Progit,对git有一个深入的总结,另外把git的一些主要命令总结下,方便日后学习工作中使用。2.git简史 读了一遍Progit第一章节,印象比较深刻的有如下几点。 1.git的底层是数据库,这样我们就大
2014-08-17 10:06:41 2027
原创 Ospaf项目-commits词频统计模块
1.背景 最近在搞得ospaf项目(可以移步ospaf中期报告来了解),对于commits数据进行特征提取的时候发现,因为开源项目的commits的特点有以下两个主要放面:1.动词往往出现在第一个字,例如add、revert之类的。2.动词相对固定,主要也就是那几种,add、revert、update、merge、remove之类的。 所以要做的工作就比较清晰了。
2014-08-15 18:41:44 1711 3
原创 csdn开源夏令营-ospaf中期报告
1.背景 随着将中期的代码托管到CSDN的平台上,ospaf(开源项目成熟度分析工具)已经有了小小的雏形,当然还远远不够。 首先还是要感谢这次活动组织方CSDN,感觉挺有Google Summer Code 中国版的味道。还有就是我的夏令营导师David,给了我很多指导和帮助,线下的交流也很让我长见识。 接着来说ospaf这个项目(有兴趣的tx可以去看题案,地址)。
2014-07-25 15:32:07 2320 1
原创 【机器学习算法-python实现】采样算法的简单实现
1.背景 采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样)。常用的采样算法有以下几种(来自百度知道): 一、单纯随机抽样(simple random sampling)将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。优点:操作简单,均数、率及相应的标准误计算简单。 缺点:总体较大时,难以一一编号。二、系统抽样(systemat
2014-07-14 16:05:43 9466 3
原创 【机器学习算法-python实现】K-means无监督学习实现分类
1.背景 无监督学习的定义就不多说了,不懂得可以google。因为项目需要,需要进行无监督的分类学习。 K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法。 大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心。一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设
2014-07-11 08:30:15 8886 3
原创 【机器学习算法-python实现】矩阵去噪以及归一化
/********************************* 本文来自博客 “李博Garvin“* 转载请标明出处:http://blog.csdn.net/buptgshengod******************************************/
2014-07-08 10:46:36 10607 6
原创 python将字典内容存入mysql
1.背景 项目需要,用python实现了将字典内容存入本地的mysql数据库。比如说有个字典dic={"a":"b","c":"d"},存入数据库效果图如下:2.代码 '''Insert items into database@author: hakuri'''import MySQLdbdef InsertData(TableName,dic): try:
2014-07-01 14:39:06 17491 1
原创 python 获得github代码库列表
1.背景 项目需求,要求获得github的repo的api,以便可以提取repo的数据进行分析。研究了一天,终于解决了这个问题,虽然效率还是比较低下。 因为github的那个显示repo的api,列出了每个repo的详细信息,而且是json格式的。现在貌似还没有找到可以分析多个json格式数据的方法,所以用的是比较蠢得splite加re的方法。如果大家有更好的方法,不发留言讨论!
2014-06-25 15:50:37 3546 1
原创 pydev-python 链接mysql数据库(mac系统)
1.首先实现命令行下可运行mysql 这一部分网上有一位大神说的已经很清楚了,直接引用过来,多谢哈。引用:http://www.lihui.info/mac-pydev-mysqldb/ 在mac os上安装MySQLdb,遇到了很多问题,总结一下: 首先,如果用sudo easy_install mysql-python命令安装,
2014-06-23 19:55:58 2722
转载 Mahout学习之Mahout简介、安装、配置、入门程序测试
一、Mahout简介查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...附logo:(就是他,骑在象头上的那个Mahout) 步入正文啦: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于
2014-06-19 10:20:26 3139 9
原创 开源项目成熟度分析工具-利用github api获取代码库的信息
1.github api github api是http形式的api,功能还是比较丰富的,博主因为项目的原因主要用到的是提取project信息这项功能,返回的数据室JSON格式。api页:https://developer.github.com/v3/Options: (H) means HTTP/HTTPS only, (F) means FTP only --anyaut
2014-06-18 17:35:26 6539
转载 github如何make contribute to 其它开源项目
朋友可能不太清楚如何帮忙翻译,我这里写一个简单的流程,大家可以参考一下:首先fork我的项目把fork过去的项目也就是你的项目clone到你的本地在命令行运行 git branch develop 来创建一个新分支运行 git checkout develop 来切换到新分支运行 git remote add upstream https://github.com/numbbbbb/the-swi
2014-06-17 19:26:57 3153 3
原创 云端大数据实战记录-大数据推荐
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 这是博主第一次大数据实战的经历,之前都是自己写一些算法然后测试很小的数量级。这次是真正接触到TB集的数据,而且完全是在云端处理。下面就把这次的经历简单分享一下。首先简单介绍一下这次比赛的环境吧:1.云:采用的是阿里云2.数据:从四月十五号到八月十五号期间,用户两千多万的购买行为(包括时间,购买、收
2014-06-16 07:16:07 5874 6
原创 斯坦福机器学习公开课学习笔记(3)—拟合问题以及局部权重回归、逻辑回归
(转载请注明出处:http://blog.csdn.net/buptgshengod)
2014-06-09 15:13:02 2757
原创 斯坦福机器学习公开课学习笔记(2)—监督学习 梯度下降
(转载请注明出处:http://blog.csdn.net/buptgshengod)1
2014-06-06 16:26:17 2043
原创 斯坦福机器学习公开课学习笔记(1)—机器学习的动机与应用
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.北京
2014-06-05 08:38:19 3286
原创 云计算大会有感—MapReduce和UDF
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.参会有感 首先还是非常感谢CSDN能给我票,让我有机会参加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。 还是得从国家会议中心说起,两年前lz曾经在那当过IDF的志愿者,当时是纯体力劳动,负责给参会人员发一些杂志什么的,当时苦逼的为了多蹭一个盒饭
2014-05-23 09:38:51 4789 1
原创 【机器学习算法-python实现】协同过滤(cf)的三种方法实现
(转载请注明出处:http://blog.csdn.net/buptgshengod)
2014-05-16 11:47:24 7823
转载 linux修改path路径
修改Linux的PATH方法有三(添加用户的路径到PATH): 方法一: 直接在命令行中输入:#PATH=$PATH:/etc/apache/bin。这种方法只对当前会话有效,也就是说每当登出或注销系统后,PATH设置就会恢复原有设置。 方法二: 修改/etc/profile文件。在/etc/profile文件的适当位置添加PATH=$PATH:/etc/apache/bin (注意:=即等号两边
2014-05-09 11:41:06 3423 1
原创 SQL语句学习总结
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.归并重复项 +------+-------+| user | brand |+------+-------+| aa | 9 || aa | 9 || bb | 4 || bb | 3 || cc | 9 |+------+-------+
2014-05-09 11:29:05 1688
原创 【机器学习算法-python实现】Adaboost的实现(1)-单层决策树(decision stump)
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 上一节学习支持向量机,感觉公式都太难理解了,弄得我有点头大。不过这一章的Adaboost线比较起来就容易得多。Adaboost是用元算法的思想进行分类的。什么事元算法的思想呢?就是根据数据集的不同的特征在决定结果时所占的比重来划分数据集。就是要对每个特征值都构建决策树,并且赋予他们不同的
2014-05-06 07:31:38 9466 1
原创 【机器学习算法-python实现】svm支持向量机(3)—核函数
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景知识 前面我们提到的数据集都是线性可分的,这样我们可以用SMO等方法找到支持向量的集合。然而当我们遇到线性不可分的数据集时候,是不是svm就不起作用了呢?这里用到了一种方法叫做核函数,它将低维度的数据转换成高纬度的从而实现线性可分。 可能有的人不明白为什么低维度的数据集转换成高
2014-05-05 07:37:06 5826
原创 【机器学习算法-python实现】svm支持向量机(2)—简化版SMO算法
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景知识 通过上一节我们通过引入拉格朗日乗子得到支持向量机变形公式。详细变法可以参考这位大神的博客——地址 参照拉格朗日公式F(x1,x2,...λ)=f(x1,x2,...)-λg(x1,x2...)。我们把上面的式子变型为: 约束条件就变成了:
2014-05-04 14:29:43 4100
原创 【机器学习算法-python实现】svm支持向量机(1)—理论知识介绍
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 支持向量机SVM(support vector machines)。SVM是一种二值分类器,是近些年比较流行的一种分类算法。本文,首先要介绍一些基本的知识概念,在下一章将对SVM进行简单地代码实现。2.基本概念(1)线性可分
2014-04-30 15:31:21 7695 2
原创 【机器学习算法-python实现】逻辑回归的实现(LogicalRegression)
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景知识 在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法。 (1)回归 先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非
2014-04-30 08:00:39 31532 5
百度应用统计功能sdk使用文档
2013-08-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人