数据挖掘
旭旭_哥
码农一枚
展开
-
一些培训课程mysql R sas java python oracle
http://blog.csdn.net/lianghl8090/article/details/40624547转载 2015-10-18 13:53:00 · 607 阅读 · 0 评论 -
工作中收藏到的一些大牛博客或比较有用的论坛
不知不觉都已经毕业三个月了,三个月中沉沉浮浮,互联网行业变化太快,今天还是很辉煌的,明天可能就倒闭,刚刚进陆金所,被委派过来做众筹数据相关的工作,今天在写博客,众筹这项目以失败告终,原因不知道在哪里,或许互联网行业就这样,钱烧的太快,来不及思考就已经谢幕。。。。。不多说,明天就要去另外一个项目,下面是这三个月收集到的一些blog,有兴趣的可以看看:http://www.cnblogs.com/原创 2015-10-13 22:02:04 · 1837 阅读 · 0 评论 -
plsql中正则及decode中使用
碰到个小问题 记录下,有用sql中的正则表达式看看吧select xmo_dw.url_decode(domain) as domain, substring(xmo_dw.url_decode(domain) from '^https?:\/\/(.*?)\/.*?') from xmo_dw.rtb_datas where searchengine_id in (select id f原创 2015-11-24 18:58:28 · 1417 阅读 · 0 评论 -
sh调取sqoop脚本每天增量跑数据 从hadoop到关系型数据库
sh中调取sqoop每天增量懂啊关系型数据库中,看看吧#!/bin/bashsource ~/.bashrcset -xDAY=`date -d "$1 days ago" +%y-%m-%d`DAYI=`date -d "$1 days ago" +%Y%m%d`APPHOME="/opt/pig_home/bshare_etl/hdetl/app/pv_pl原创 2015-11-27 09:44:05 · 1346 阅读 · 0 评论 -
python调取hive 和sqoop之二
#!/usr/bin/pythonimport time,osUSER="wilson.zhou"PWD="YCt452uz"URL="jdbc:postgresql://10.1.1.230:5432/xmo_dw"day = time.strftime('%Y-%m-%d',time.localtime(time.time() -24*60*60))[2::]sql = ''原创 2015-11-26 16:28:50 · 2219 阅读 · 1 评论 -
用python调用hive和sqoop
来新公司了,要做一大坨的脚本调数据,看看用python怎么调这些东西,#!/usr/bin/pythonimport time,osUSER="wilson.zhou"PWD="YCt452uz"URL="jdbc:postgresql://10.1.1.230:5432/xmo_dw"day = time.strftime('%Y-%m-%d',time.localtime(t原创 2015-11-26 16:22:34 · 5061 阅读 · 0 评论 -
R软件包ggvis包
下午在床上睡觉,听朋友说要说ggvis包,之前都没怎么用过啊,赶紧起来查查,原来是Hadley开发的一个包,Hadley绝对是个牛人,对R软件的贡献学R的人都知道,到官网上去找了这个包的安装文档,依赖于shiny包的,再去cos论坛看Hadley的采访,原来这玩意寄以重任,看做是下一代ggplot2,ggplot2已经很优秀了,ggvis在中国显得默默无名,不多说,在官网上找了点资料,动手写了写了原创 2015-10-13 22:00:16 · 3213 阅读 · 0 评论 -
python学习-文本数据分析1(主题提取+词向量化)
原文地址:http://blog.sina.com.cn/s/blog_727a704c0102vn44.html使用Python 进行简单文本类数据分析,包括:1. 分词2. 生成语料库,tfidf加权 3. lda主题提取模型4. 词向量化word2vec参考:http://zhuanlan.zhihu.com/textmining-experience转载 2015-10-13 21:45:42 · 23418 阅读 · 0 评论 -
python学习-数据分析2(分类型数据处理+SVM建模)
原文地址 http://blog.sina.com.cn/s/blog_727a704c0102vn2c.html研究多种数据处理方式(拆分,整合,哑变量,重编码,分段变量处理等)测试SVM模型示例:研究房屋相关信息预测价格区间#!/usr/bin/env python# -*- coding:utf-8 -*-#1.读取数据库import MySQLdb转载 2015-10-13 21:42:57 · 2592 阅读 · 0 评论 -
R语言中时间格式个人使用总结
(1)获取当前日期有两个函数一个是Sys.Date(),另外一个是Sys.time(),获得向前向后的时间 t<-Sys.time() t[1] "2015-09-22 18:53:56 CST"t是一种长整形的数据自1970-01-01年开始,用unclass()函数得到,时间单位是秒> unclass(t)[1] 1442919236获取一个小时前的日期as.P原创 2015-10-13 21:52:16 · 12110 阅读 · 0 评论 -
R语言RMySQL包的使用注意事项
上午用R处理写了一些代码,做了一些数据处理工作,代码很快就写完,最后要把生成的目标表插入mysql数据库中出现了点问题,折腾了好一会:conn <- dbConnect(MySQL(), dbname = "analyse", username="root", password="Pa123456!",host="202.69.27.239",port=8443)# dbSendQuery(原创 2015-10-13 21:56:31 · 1742 阅读 · 0 评论 -
python中kmeans聚类实现
k-means算法思想较简单,说的通俗易懂点就是物以类聚,花了一点时间在python中实现k-means算法,k-means算法有本身的缺点,比如说k初始位置的选择,针对这个有不少人提出k-means++算法进行改进;另外一种是要对k大小的选择也没有很完善的理论,针对这个比较经典的理论是轮廓系数,二分聚类的算法确定k的大小,在最后还写了二分聚类算法的实现,代码主要参考机器学习实战那本书:#en原创 2015-10-13 21:50:31 · 4575 阅读 · 1 评论 -
再说ggplot2
今天快下班的时候,业务临时提出了个需求,想看到网站跳出率分析数据,不得不在用气ggplot2快速画了几个图,中途还出了点差错,reshape包中的melt函数太久没用,忘了,耽误不少时间,不说,直接上ggplot的代码,代码实现的是散点连线图,有很多细节方面的东西,有心情的话看看:library(RMySQL)library(ggplot2)library(reshape)# 文件操作原创 2015-10-13 21:54:21 · 914 阅读 · 0 评论 -
python中一些比较实用的小技巧
话说python是一个大杂会,既可以用来做web,也可以用来做运维,还可以用来做数据科学(数据分析、数据挖掘、机器学习),这些东西java也可以来做,但是java总显得那么的笨重,java天生适合做框架、系统,这种小娇玲珑的一些功能朋python可以比java强,能提供快速的交互命令,最近在看scala,感觉是集python与java之所长,出来的一门新的编程语言,经常碰到各种各样的pyhon有用原创 2015-10-13 21:58:08 · 1024 阅读 · 0 评论 -
python学习-文本数据分析2(文本分类)
利用Python进行文本分类, 可用于过滤垃圾文本1. 抽样2. 人工标注样本文本中垃圾信息3. 样本建模4. 模型评估5. 新文本预测参考: http://scikit-learn.org/stable/user_guide.htmlPYTHON自然语言处理中文翻译 NLTK Natural Language Processing with Python 中文原创 2015-10-13 21:48:00 · 3420 阅读 · 1 评论 -
R里面的tryCatch
我们知道无论是java和python都有错误处理机制,java是try。。。catch之类的形式,python是try。。。except的形式,这种抓错的形式是很好的,在R中也有类似的东西,那就是tryCatch函数,刚刚开始是不知道,后来把R机器学习实战那本书的代码写了一遍才知道,具体看看怎么用的把:(1)抓取错误tryCatch(libray(xx),error=function(e)原创 2015-10-13 21:59:09 · 8650 阅读 · 0 评论 -
sas批导入
出来实习将近一年,碰到sas中各种各样的问题,今天第一次要讲的批量导入问题首先第一种方法是利用filename导入csv excel的code:%macro directory(dir=);%let rs=%sysfunc(filename(filref,&dir));%let did=%sysfunc(dopen(&filref));%let nobs=%sysfunc(原创 2015-01-26 13:39:23 · 1788 阅读 · 0 评论 -
基于spark的版位价格预测,广告计算
在广告计算行业,经常要用到版位价格预测,这不正好凑巧做了一个,模型基本思路是,选用的是随机森林模型,模型在spark里面训练好,存储在redis中,然后在别的地方调用,看看主程序吧,csdn没有scala的语言关键字,只能用python了,具体看看代码吧:package com.iclick.spark.buzzads.stats/** * @author wilson.原创 2016-04-27 17:15:27 · 1924 阅读 · 0 评论