- 博客(22)
- 资源 (1)
- 收藏
- 关注
原创 【开源】爬取QQ空间说说及简易数据分析
前几天,一直在学习爬虫,然后最近想到了一个不错的idea,想以这个小demo来结束爬虫的学习。 是这样的:登入qq空间,爬取自己或者好友的所有说说记录,然后区统计分析一共发了多少说说,每条说说的评论有多少,谁评论的最多,有多少赞,谁赞最多,还有可以找出你的qq好友中男女比例多少,来自哪里,什么星座等等。 这里讲下具体思路,具体代码我托管到github,有兴趣的朋友可
2015-02-14 17:48:23 17297 16
原创 【JAVA实现】单例模式(singleton)
一 定义保证一个类只有仅有一个实例,并提供一个访问它的全局访问点。二 案例一个很简单的案例,读取配置文件,这里读取properties文件。三 未使用模式的情况很容易写出如下代码:import java.io.IOException;import java.io.InputStream;import java.util.Properties;/
2016-04-12 22:06:39 827
转载 【JAVA线程】SwingWorker的用法
Swing应用程序员常见的错误是误用Swing事件调度线程(Event DispatchThread,EDT)。他们要么从非UI线程访问UI组件;要么不考虑事件执行顺序;要么不使用独立任务线程而在EDT线程上执行耗时任务,结果使编写的应用程序变得响应迟钝、速度很慢。耗时计算和输入/输出(IO)密集型任务不应放在SwingEDT上运行。发现这种问题的代码并不容易,但Java SE6提供了java
2015-03-22 23:48:43 1142
原创 【JAVA实现】用Logistic回归进行分类
package logistic;import java.util.List;public class Horse { private List attributes; private String label; public List getAttributes() { return attributes; } public void setAttributes(L
2015-03-14 22:54:16 5470 5
原创 【JAVA实现】朴素贝叶斯分类算法
之前博客提到的KNN算法以及决策树算法都是要求分类器给出“该数据实例属于哪一类”这类问题的明确答案,正因为如此,才出现了使用决策树分类时,有时无法判定某一测试实例属于哪一类别。使用朴素贝叶斯算法则可以避免这个问题,它给出了这个实例属于某一类别的概率值,然后通过比较概率值,可以找到该实例最有可能属于哪一类别。 该算法可以用如下形式表示: 直接求解概率值很困难,
2015-03-13 17:12:38 10054 12
原创 2014-2015学年大三上半学期总结,下学期展望
我一直视大三是大学最重要的一年,因为在这个时候,我觉得每个人的知识水平达到最高点,这时候你可能最需要的是一个施展才华的地方。对于一个搞开发的人,我觉得这时候最需要的是项目。学了这么多语言,看了这么多编程书,做了这么多比赛,总希望有一个能够真正发布的自己参与的应用。 对于我的大三上学期,总觉得这学期一直是在徘徊选择中度过,考研?就业?选择哪个让我纠结了一段时间。最终我选择考研,我想从
2015-03-02 17:25:43 2135 3
原创 【JAVA实现】K-近邻(KNN)分类算法
KNN算法属于监督学习算法,是一种用于分类的非常简单的算法。简单的说,KNN算法采用测量不同特征值之间的距离方法进行分类。具体算法如下: 1)计算已知类别数据集中的点与当前点之间的距离 2)按照距离递增次序排序 3)选取与当前距离最小的k个点 4)确定前k个点所在类别的出现频率 5)返回前k个点出现频率最高的类别作为当
2015-02-26 21:43:40 11340 10
原创 【JAVA图表】Jfreechart常用图表总结
这个寒假在学习机器学习,很多案例中的数据集需要用图表呈现,因此,我总结了一些常用的图表代码,为日后使用提供方便。 说明:以下的代码只涉及极少一部分jfreechart的API,如果想进一步了解,请访问它的主页http://www.jfree.org/jfreechart/ 。并且,以下的代码均不可以直接复制然后运行,需要进一步实现自己的数据集,数据集的接口,我已经预留,大家实现即可
2015-02-26 17:12:38 4134
原创 【JAVA实现】K-means聚类算法
上一篇博文介绍了层次聚类算法的实现http://blog.csdn.net/c_son/article/details/43900503 ,可以发现其效率比较低下,因为每次迭代都要计算每两个聚簇之间的距离。这次的k-means算法在效率上要优于层次聚类算法。 算法实现: 1)从样本D中随机选取K个元素,作为K个簇的中心 2)分别计算剩下
2015-02-22 23:29:15 5301 2
原创 【JAVA实现】层次聚类算法
聚类算法属于机器学习中一种无监督学习算法。聚类方法一般可以分为层次聚类与非层次聚类两种。其中层次聚类算法又可以分为合并法与分解法;同样非层次聚类算法也可以分为多种,常用的有K-means算法。这篇博客先来实现层次聚类算法中的合并法,我会在下一篇博文中讲述K-means算法。 其中,合并法是指:初始阶段,将每个样本点当做其类簇,然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件
2015-02-21 22:39:15 7035 2
原创 【JAVA实现】基于欧几里得度量的相似度计算
前文讲了基于皮尔逊相关系数的相似度计算方法,这次介绍一个更加简单的相似度计算算法——欧几里得度量。 算法描述如下: 欧几里得度量定义欧几里得空间中,点x =(x1,...,xn)和 y =(y1,...,yn)之间的距离为 很简单吧,我也不多做描述了,直接贴代码。package euclideanMetric;/** * @auth
2015-02-20 16:39:40 6493
原创 【JAVA实现】基于皮尔逊相关系数的相似度计算
最近在看《集体智慧编程》,相比其他机器学习的书籍,这本书有许多案例,更贴近实际,而且也很适合我们这种准备学习machine learning的小白。 这本书我觉得不足之处在于,里面没有对算法的公式作讲解,而是直接用代码去实现,所以给想具体了解该算法带来了不便,所以想写几篇文章来做具体的说明。以下是第一篇,对皮尔逊相关系数作讲解,并采用了自己比较熟悉的java语言做实现。
2015-02-18 12:51:00 10486
原创 【开源】scrapy爬取亚马逊商品评论
一、前言 上一篇博文http://blog.csdn.net/c_son/article/details/43267551对亚马逊商品的爬取,这次在上一篇的基础之上,对爬取到的商品,我们再进行用户评论的爬取。源码见github https://github.com/jerry-sc/AmazonIphone6CommentsSpider.git二、items.py
2015-01-29 20:32:38 5393 2
原创 【思路】基于互联网电子产品评论的舆情分析
一、前言 最近在一位研究生的带领下,在研究互联网电子产品评论的舆情分析。觉得这个项目挺有意义的,跟我感兴趣的大数据,数据挖掘这块也很沾边。也看了不少论文了,在此写点我的心得,以及整个project实现的思路。下面我将以某一手机品牌为研究对象。整个工程可以分为数据获取,数据预处理,评论情感分析,成果展示这四个方面。二、数据获取 数据来源的途径有很多,我将它分为两种
2015-01-29 14:11:57 1829
原创 【开源】scrapy爬取亚马逊商品信息
一、前言 最近的一个项目需要用到爬虫,虽然以前用JAVA也写过爬虫,不过实现的都是一些简易的功能,比如我开发的一个微信公众号(叫“妈妈再也不担心”,大家可以关注下),里面比如的NBA赛事查询功能,热播电影查询等。不过从许多论文里面提及的,以及很多人推荐的,好像python更适合做爬虫,又了解到python里面有个框架叫scrapy,所以最近想研究下这个,去爬取批量的数据。这次我先拿
2015-01-29 10:29:18 10802 5
转载 PYTHON风格规范——Google 开源项目风格指南
Python风格规范分号Tip不要在行尾加分号, 也不要用分号将两条命令放在同一行.行长度Tip每行不超过80个字符例外:长的导入模块语句注释里的URL不要使用反斜杠连接行.Python会将 圆括号, 中括号和花括号中的行隐式的连接起来 , 你可以利用这个特点. 如果需要, 你可以在表达式外围增加一对额
2015-01-27 20:00:22 1008
原创 ubuntu下eclipse pydev 离线 环境搭建 及相关问题解决
最近项目需要用到python,然后就屁颠屁颠的去学python,首先IDE的选择,由于之前一直用eclipse开发java,当然对eclipse也是有一定了解,所以这次还是选eclipse作为IDE。百度随便一搜,eclipse pydev环境搭建,相信肯定有一大堆教程,我看了下,好像大多数都是在线安装,跟着试了试,相信大家十有八九会失败,因为该地址被和谐掉了,当然可以通过翻墙设置代理等把它下
2015-01-24 10:18:19 1762
原创 git 命令集合
一口气读完了廖神的博客,真心觉得太赞,非常通俗易懂,里面的python教程也非常棒。推荐大家访问他的个人网站http://www.liaoxuefeng.com/。初学git也记不了这么多命令,写个文章把里面的命令整理下,方便日后查找。1.将所在目录变成git可以管理的仓库git init2.将修改提交到暂存区git add filename3.一次性将暂存区所
2015-01-23 22:29:57 706
原创 ubuntu 64位 WPS安装问题的解决
今天用Ubuntu(64位)装WPS时碰到了各种问题,通过各种资料查找,总算成功了,下面来总结下。首先,去官网下载WPS的deb包,这个不多说,附上链接http://community.wps.cn/download/原以为安装好就OK了,可是发现怎么点都点不开,原来,官网提供的WPS是32位的操作系统,所以64位的操作系统不能用。因此我们还要安装32位操作系统的库文件。可通过下面命令安装
2015-01-19 23:41:59 2819
原创 【JAVA实现】基于决策树的ID3算法
这个系列的第一篇博客,按照顺序从C4.5算法,了解到它是ID3的升级版,所以决定先对ID3探个究竟。 先申明一下,代码也都是建立在他人的代码之上,所以感谢他们的帮助,我只是在这之上做了一部分修改,并加上了更详尽的注释。“原创”二字满足下虚荣心。废话不多少,直接上代码,至于算法描述,请自行google。 首先是数据集,这里和网上大多数例子一样,用了weka的weath
2014-08-17 22:17:16 1790
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人