数据挖掘
Quincy1994
这个作者很懒,什么都没留下…
展开
-
结合网页排名来做社会网络分析,挖掘核心人物
基于中心论的社会网络分析法基于中心论的分析主要有三个点:1.点度中心度(考虑点的出入度,可直接找出网络中的中心点) 2.中介中心度(考虑路径的中介点,可发现网络中的中介者,或者叫桥梁) 3.接近中心度(考虑点与点的最短路径,可找出点的对网控制力量) 4.特征中心度(综合三个中心度考虑一个行动者中心性指标)然而,这三种方法都忽略了点与点之间的相互作用, 只孤立地考虑点在网络中的地位,无法分析出”原创 2016-03-10 22:43:18 · 2858 阅读 · 0 评论 -
频繁项集与关联规则(英文版)
IntroductionThe study of Finding frequent item-sets and association rules is an important part of Data Mining , which has been widely applied to optimize marketing strategies, enhance the performance o原创 2017-10-22 15:53:10 · 1898 阅读 · 1 评论 -
关于任务二(用户兴趣标注)的总结
前言听完smp比赛各队伍的技术分享后, 回来实验室后用了一周的时间去复刻第一名,第二名关于任务二的做法.任务二的研究对象为csdn技术论坛的用户,根据他们的博客行为和博客内容,以及用户与用户之间的关系,分析用户的主要兴趣点。比赛给定的兴趣标签空间为42个兴趣类别,兴趣类别之间呈现明显的不平衡分布。在这个过程中, 我学习到了非常多的东西. 不过遗憾的是, 到最后也无法达到他们训练出来的效果, 估计某些原创 2017-09-27 13:47:13 · 985 阅读 · 0 评论 -
关于smp的比赛感悟
虽然过去我主持了很多数据挖掘相关的项目, 但smp是我第一次参加的数据挖掘类型比赛.经历了一个多月的煎熬, 我想我也积累了许多宝贵的经验和教训,而这比赛对我最大的锻炼是心态上的成熟, 让我学习了如何在困境中冷静思考,在绝境中寻求希望.迎接新领域与新知识不管是比赛还是项目,我们总会遇到未知的盲区.关于如何冲破盲区, 不同人有不同的看法. 我个人的做法是先寻求这样问题的类似解决方案, 论文或博客, 并记原创 2017-08-17 12:03:17 · 1126 阅读 · 1 评论 -
使用scikit-learn做基本机器学习
安装的工具包sklearn: sudo pip install sklearn numpy: sudo pip install numpy scipy: sudo pip install scipy matplotlib : sudo pip install matplotlibsklearn的官网教程http://scikit-learn.org/stable编程代码示范#coding=ut原创 2017-07-11 14:17:53 · 1885 阅读 · 0 评论 -
利用spark的随机森林做票房预测
前言最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模.前期工作一开始的做法是将这个问题看待成回归的问题, 采用GBDT回归树去做. 训练了不同残差的回归树, 然后做集成学习. 考虑的影响因子分别有电影的类型, 豆瓣评分, 导演的 影响力, 演员的影响力, 电影的出品公司. 不过预测的结果并不是那么理想, 准确率为真实值的0原创 2017-05-31 16:27:56 · 3360 阅读 · 0 评论 -
利用spark做文本分类(朴素贝叶斯模型)
朴素贝叶斯模型朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。至于朴素贝叶斯模型的原理部分,这里就不讲啦,有疑惑的朋友,我推荐看李航的《统计学习方法》中的第四章。我在这里主要谈论的是基于Java版的spark贝叶斯模型。应用场景相对于LR,SV原创 2017-02-10 21:55:58 · 4757 阅读 · 3 评论 -
关于EM算法的简单讲解
EM算法 EM算法是一种迭代算法,1977年由Dempster等人总结提出,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。例如估计LDA中的隐变量topic的分布,高斯混合模型中观测数据来自第k个的高斯分布的概率数据。EM算法的每次迭代由两步组成:E步,求期望(expection);M步,求极大(maximization)E步的公式如下:原创 2017-02-06 21:54:52 · 2041 阅读 · 0 评论 -
关于评论话题挖掘的研究及其实现代码(一)LDA
引言 在 2016年中,我们参加了一个由厦门信研院举办的大数据比赛。当时,我们拿到的题目为影迷关注点分析。数据是来自于微博与豆瓣的影迷评论数据,其数据量达600多万条评论数据,分别对应于2000多部不同的电影。我们的想法是将影迷关注点分析尽量往评论话题挖掘模型中靠拢。LDA话题模型 LDA话题模型 在一开始的时候,我们打算采用LDA话题识别模型。LDA( Latent Dir原创 2017-02-04 17:09:34 · 4182 阅读 · 2 评论 -
关于JAVA的selenium安装使用
前言上一篇博客谈到如何使用python的selenium做微博爬虫, 不过该程序只适用于ubuntu系统.本来想在window也用同样的方法做爬虫,结果一个下午都尝试失败,系统总是报”window error”, 估计是python的selenium真的不兼容windows.后来改变了一下思路, 换成了Java的selenium爬虫.结果发现, java的selenium其实也不太复杂.这份博客主要原创 2016-12-14 12:22:44 · 3386 阅读 · 1 评论 -
ubuntu使用selenium自动化操作
前言爬虫工作可谓是斗智斗勇,很多反爬虫工作杜绝了以往机器的模拟登录,最厉害的莫过于天猫超市的后台管理。因此,现在的机器爬虫在登陆的工作上,会使用半人工化的操作。而selenium便是一个很不错的机制。关于seleniumSelenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7、8、9)、Mozilla Firefo原创 2016-09-08 11:37:22 · 2805 阅读 · 0 评论 -
关于java爬虫与python爬虫
前言很多人说学习数据挖掘,先从爬虫入手。接触了大大小小的项目后,发现数据的获取是数据建模前的一项非常重要的活儿。在此,我需要先总结一些爬虫的流程,分别有python版的以及java版的。url请求java版的代码如下:public String call (String url){ String content = ""; BufferedReader原创 2016-09-06 17:34:00 · 12129 阅读 · 1 评论 -
基于改进卡方校验的特征选取方法
前言卡方校验可以用作特征选取,尤其在数据预处理中起到一定的作用.例如,在文本分类中,我们可以利用卡方校验来判断某些词对类别分类的影响程度,从而筛选出特征词.而对于多维属性的对象,我也可以通过卡方校验来筛选出特征属性.卡方校验其实是梳理统计中一种常用的校验两个变量独立性的方法.通常,我们会用一个相关性表格来描述卡方校验,具体理论知识,我们可以参考一下的网址: 特征选取算法之卡方校验卡方校验的实现多维原创 2016-02-26 20:14:45 · 2692 阅读 · 0 评论 -
基于python 的Apriori算法
Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。 该算法的具体思想可以参考这个网址了原创 2015-09-06 12:20:47 · 3168 阅读 · 0 评论