排序:
默认
按更新时间
按访问量

频繁项集与关联规则(英文版)

IntroductionThe study of Finding frequent item-sets and association rules is an important part of Data Mining , which has been widely applied to opti...

2017-10-22 15:53:10

阅读数:327

评论数:0

关于任务二(用户兴趣标注)的总结

前言听完smp比赛各队伍的技术分享后, 回来实验室后用了一周的时间去复刻第一名,第二名关于任务二的做法.任务二的研究对象为csdn技术论坛的用户,根据他们的博客行为和博客内容,以及用户与用户之间的关系,分析用户的主要兴趣点。比赛给定的兴趣标签空间为42个兴趣类别,兴趣类别之间呈现明显的不平衡分布。...

2017-09-27 13:47:13

阅读数:421

评论数:0

关于python操作mysql

安装mysqldb包sudo apt-get install MYSQL相关编程代码conn = MySQLdb.connect(host='127.0.0.1',port=3306, user='root',passwd='iiip', db='moviedb',charset='utf8') ...

2017-08-25 19:59:52

阅读数:227

评论数:0

关于smp的比赛感悟

虽然过去我主持了很多数据挖掘相关的项目, 但smp是我第一次参加的数据挖掘类型比赛.经历了一个多月的煎熬, 我想我也积累了许多宝贵的经验和教训,而这比赛对我最大的锻炼是心态上的成熟, 让我学习了如何在困境中冷静思考,在绝境中寻求希望.迎接新领域与新知识不管是比赛还是项目,我们总会遇到未知的盲区.关...

2017-08-17 12:03:17

阅读数:502

评论数:1

利用Java的Spark做单词统计并排序

import java.util.ArrayList; import java.util.Arrays; import java.util.Collections; import java.util.HashMap; import java.util.List; import java.util....

2017-07-21 11:22:24

阅读数:337

评论数:0

使用scikit-learn做基本机器学习

安装的工具包sklearn: sudo pip install sklearn numpy: sudo pip install numpy scipy: sudo pip install scipy matplotlib : sudo pip install matplotlibsklear...

2017-07-11 14:17:53

阅读数:1371

评论数:0

Python的一些常用方法

python遍历文件夹下的路径import os for path, dirnames, filenames in os.walk(filepath)python中shell命令执行os.system(shell)

2017-07-10 20:51:24

阅读数:210

评论数:0

利用spark的随机森林做票房预测

前言最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模.前期工作一开始的做法是将这个问题看待成回归的问题, 采用GBDT回归树去做. 训练了不同残差的回归树, 然后做集成学习. 考虑的影响因子分别有电影的类型, 豆瓣评分,...

2017-05-31 16:27:56

阅读数:559

评论数:0

linux的一些基本命令(关于文件操作, 进程操作,以及/boot问题)

文件操作:1.将多个文件合并为单一个文件: cat file1.txt file2.txt > file.txt 2.用sed删除空白行:sed -i ‘/^$/d’ filename 3.用sort加uniq 删除重复项: sort -n filnename| uniq > fi...

2017-05-23 14:32:05

阅读数:239

评论数:0

python操作mongodb

#coding=utf-8 from pymongo import *IP = "localhost" PORT = 27017 class MyMongoDB: '''成员变量''' client = None ##连接数据库的对象 db = None...

2017-05-12 23:22:21

阅读数:485

评论数:0

mongodb的一些命令操作

关于对mongodb的操作:终端连接mongo命令: mongo 关闭数据库:sudo service mongodb stop 开启数据库 sudo service mongodb start关于对文档集合的操作: ( 缺乏键的约束)查看文档集合: show collections; ...

2017-05-12 16:33:36

阅读数:418

评论数:0

关于NOSQL的讲义

1 关于NOSQL的介绍问:什么是NOSQL ?NOSQL ,全称为Not Only SQL,不仅仅是SQL,并不是反对SQL的意思(No SQL)。它是针对传统的关系型数据库(RDMB)的不足,提出了全新的数据库管理架构理念。问:为什么会有NOSQL?随着数据规模的不断增长,许多企业需要的数据库...

2017-05-11 19:47:17

阅读数:653

评论数:0

利用spark的mllib构建GBDT模型

GBDT模型GBDT模型的介绍,我主要是参考博客:http://blog.csdn.net/w28971023/article/details/8240756 在这里,我主要归纳以下几点要素: 1.GBDT中的树都是回归树; 2.回归树节点分割点衡量最好的标准是叶子个数的上限; 3.GBD...

2017-05-02 11:40:58

阅读数:933

评论数:0

关于spark的mllib学习总结(Java版)

本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLi...

2017-04-23 23:20:54

阅读数:8759

评论数:5

关于在ubuntu下安装使用pycharm

1.安装jdk先下载jdk: https://pan.baidu.com/s/1o7MqvKA 解压到本地: 方法一:直接点击右键,点“提取此文件 方法二:使用命令行sudo tar -zxvf jdk1.8.0_91.tar.gz -C jdk1.8.0_91 复制到指定路径,我使用的...

2017-04-20 20:24:32

阅读数:1530

评论数:0

关于mysql的安装使用以及java编程

关于mysqlMySQL是一个关系型数据库管理系统那个,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。ubuntu 下载与安装mysql sudo apt-get install mysql-server /...

2017-02-19 11:59:44

阅读数:560

评论数:0

关于mongodb的安装使用以及java编程

什么是mongodbmongodb是nosql中的一种,其 将数据存储为一个文档,数据结构由键值(key,value)对组成。MongoDB文档类似于JSON对象。字段值可以包含其他文档,数组及文档数组。 安装mongodb我主要采用的是ubuntu系统,只需输入以下命令行,即可安装mongod...

2017-02-19 10:50:48

阅读数:1014

评论数:0

利用spark做文本分类(朴素贝叶斯模型)

朴素贝叶斯模型朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。至于朴素贝叶斯模型的原理部分,这里就不讲啦,有疑惑的朋友,我推荐看李航的《统计...

2017-02-10 21:55:58

阅读数:1598

评论数:1

利用spark做文本聚类分析

import java.util.Arrays; import java.util.List;import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.a...

2017-02-07 14:52:28

阅读数:3444

评论数:0

关于EM算法的简单讲解

EM算法 EM算法是一种迭代算法,1977年由Dempster等人总结提出,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。例如估计LDA中的隐变量topic的分布,高斯混合模型中观测数据来自第k个的高斯分布的概率数据。 EM算法的每次迭代由两...

2017-02-06 21:54:52

阅读数:1191

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭