开源夏令营
Garvin Li
Dancing with data
展开
-
pydev-python 链接mysql数据库(mac系统)
1.首先实现命令行下可运行mysql 这一部分网上有一位大神说的已经很清楚了,直接引用过来,多谢哈。引用:http://www.lihui.info/mac-pydev-mysqldb/ 在mac os上安装MySQLdb,遇到了很多问题,总结一下: 首先,如果用sudo easy_install mysql-python命令安装,原创 2014-06-23 19:55:58 · 2754 阅读 · 0 评论 -
【机器学习算法-python实现】K-means无监督学习实现分类
1.背景 无监督学习的定义就不多说了,不懂得可以google。因为项目需要,需要进行无监督的分类学习。 K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法。 大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心。一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设原创 2014-07-11 08:30:15 · 8951 阅读 · 3 评论 -
【机器学习算法-python实现】矩阵去噪以及归一化
/********************************* 本文来自博客 “李博Garvin“* 转载请标明出处:http://blog.csdn.net/buptgshengod******************************************/原创 2014-07-08 10:46:36 · 10702 阅读 · 6 评论 -
【机器学习算法-python实现】采样算法的简单实现
1.背景 采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样)。常用的采样算法有以下几种(来自百度知道): 一、单纯随机抽样(simple random sampling)将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。优点:操作简单,均数、率及相应的标准误计算简单。 缺点:总体较大时,难以一一编号。二、系统抽样(systemat原创 2014-07-14 16:05:43 · 9528 阅读 · 3 评论 -
【机器学习算法-python实现】最大似然估计(Maximum Likelihood)
1.背景 最大似然估计是概率论中常常涉及到的一种统计方法。大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性。当然最大似然可以有很多变化,这里实现一种简单的,实际项目需要的时候可以再更改。 博主是参照wiki来学习的,地址请点击我 这里实现的是特别简单的例子如下(摘自wiki的最大似然)离散分布,离散原创 2014-08-25 11:09:02 · 27157 阅读 · 2 评论 -
Ohloh调研报告
1.背景 因为最近在搞原创 2014-08-11 21:14:47 · 2018 阅读 · 0 评论 -
ospaf-开源项目成熟度分析工具
1.概述软件成熟度评估的最终目标是帮助软件的可持续发展,并为用户应用提供必要的技术参考。开放源代码软件成熟度评估也不例外。我们通过软件的成熟度评估,形成全面的涉及技术、应用、法律等层面的评价报告,帮助那些正在或潜在的开源软件使用者准确的了解软件的技术特性和应用特性,从而为他们选择适合自身需求的开源软件提供参考。同时报告中涉及的大量评测数据,为开源软件的开发者提供帮助,促进他们有效的改善软件在技术方原创 2014-09-05 10:22:27 · 3193 阅读 · 0 评论 -
开源项目成熟度分析工具-利用github api获取代码库的信息
1.github api github api是http形式的api,功能还是比较丰富的,博主因为项目的原因主要用到的是提取project信息这项功能,返回的数据室JSON格式。api页:https://developer.github.com/v3/Options: (H) means HTTP/HTTPS only, (F) means FTP only --anyaut原创 2014-06-18 17:35:26 · 6587 阅读 · 0 评论 -
csdn开源夏令营-ospaf中期报告
1.背景 随着将中期的代码托管到CSDN的平台上,ospaf(开源项目成熟度分析工具)已经有了小小的雏形,当然还远远不够。 首先还是要感谢这次活动组织方CSDN,感觉挺有Google Summer Code 中国版的味道。还有就是我的夏令营导师David,给了我很多指导和帮助,线下的交流也很让我长见识。 接着来说ospaf这个项目(有兴趣的tx可以去看题案,地址)。原创 2014-07-25 15:32:07 · 2341 阅读 · 1 评论 -
python将字典内容存入mysql
1.背景 项目需要,用python实现了将字典内容存入本地的mysql数据库。比如说有个字典dic={"a":"b","c":"d"},存入数据库效果图如下:2.代码 '''Insert items into database@author: hakuri'''import MySQLdbdef InsertData(TableName,dic): try:原创 2014-07-01 14:39:06 · 17542 阅读 · 1 评论 -
【机器学习算法-python实现】PCA 主成分分析、降维
1.背景 PCA原创 2014-07-17 09:40:47 · 10340 阅读 · 4 评论 -
python 获得github代码库列表
1.背景 项目需求,要求获得github的repo的api,以便可以提取repo的数据进行分析。研究了一天,终于解决了这个问题,虽然效率还是比较低下。 因为github的那个显示repo的api,列出了每个repo的详细信息,而且是json格式的。现在貌似还没有找到可以分析多个json格式数据的方法,所以用的是比较蠢得splite加re的方法。如果大家有更好的方法,不发留言讨论!原创 2014-06-25 15:50:37 · 3596 阅读 · 1 评论 -
Ospaf项目-commits词频统计模块
1.背景 最近在搞得ospaf项目(可以移步ospaf中期报告来了解),对于commits数据进行特征提取的时候发现,因为开源项目的commits的特点有以下两个主要放面:1.动词往往出现在第一个字,例如add、revert之类的。2.动词相对固定,主要也就是那几种,add、revert、update、merge、remove之类的。 所以要做的工作就比较清晰了。原创 2014-08-15 18:41:44 · 1737 阅读 · 3 评论