自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小鱼人

鲨鱼来啦

  • 博客(16)
  • 收藏
  • 关注

原创 基于领域的社会化推荐

首先介绍几个概念:familiarity(u,v)=|out(u) & out(v)|/|out(u) | out(v)|   用户的熟悉度,社交网络中,看看有多少共同好友和共同关注(Facebook用这种方法),twitter一般用in(uv),来判断熟悉度。Facebook最出名的算法EdgeRank算法(信息流推荐算法):其他用户对当前信息流的回话产生过行为的行为。一般U*W*D(u代表相似

2017-09-06 08:29:37 712

原创 数据报警系统

做算法的人经常要处理大量的数据信息,因此建立一个数据报警系统是十分关键的,我们的直观做法就是监控mysql数据库里的数据是不是正常。用python连接数据库,import mysql,from mysql import connector,conn= mysql.connector.connect(host="",user="",passsword="",db=""),consor=conn.cu

2017-09-05 08:26:45 1358

原创 脚本命令常用总结

在hive中可以用:hive -e "alter table ods-storage.wk_athena_show add columns(download30 string);" 来给hive的table增加一列。在mysql中也是这样操作,类似的命令还有:alter table db.table drop if exists partition(pt = "");在linux系统下面可

2017-09-02 11:59:34 301

原创 linux用户命令crontab

linux中可以设置不同的用户,设置是可以分配不同的权限,说白了就是自己只能执行自己文件夹下面的东西,root用户有所有的权限,其中每一个用户下面都有一个crontab,这个是一个命令,用来周期性执行代码。其中m代表分钟,h代表小时,dom代表天,mon代表月,dow代表周,command代表指定的命令。可以用crontab -l来看,用crontab -e来定期执行代码。

2017-08-31 08:46:58 827

原创 脚本语言与编译型语言

程序语言现在主要分为两种:编译执行和解释执行,最早期的计算机只读的懂机器代码(二进制0-1序列),人们往往用纸来打孔来代表1,不打孔来代表0让计算机执行,因此,当时的计算机只能进行简单的计算功能。后来人们发明了编译器,把代码编译成机器指令,最早的成熟的编译器应该是20世纪50年代IBM率先进行开发的。编译型的语言有:c,c++,java(java不是直接变异成机器指令,先变异成字节码,然后用jvm

2017-08-30 08:36:24 355

原创 python连接mysql ---处理数据

有时候我们想获取数据库里的一些数据,直接用数据库操作很不方便,今天就给大家分享一种方法,用python连接mysql,然后进行数据处理。#coding=utf-8import mysqlimport mathimport datetimeimport time#from report_common import *from mysql import connector#连接数

2017-08-30 08:22:38 346

原创 推荐系统介绍

一个好的推荐系统应该分成以下几个模块:1.数据获取:日志收集,Sqoop,Flume,Kafka,爬虫。2.数据计算:离线数据计算的HIVE,Spark,mapreduce以及实时数据计算的storm,spark,streaming。3.数据存储:Hbase以及hdfs等。4.数据挖掘:相关算法。算法:给予用户的行为数据:系统过滤:给予邻近(用户,物品),隐语义模型,基于图的随

2017-08-28 09:04:09 282

原创 python处理数据,存进hive表

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的t

2017-08-06 13:18:05 17325 2

原创 三分钟学会逻辑回归

逻辑回归在二分类问题上有很好的解决方法,lr使用概率来表示某件事情出现的最大情况,其中包括了逻辑函数,最大似然,梯度上升等概念。逻辑函数:sigmod=1.0/(1+exp(-x)),函数值在0~1,之间,这样我们输入一组数据和对应的权值就可以得到一个z=w0*x1+...+wn*xn,把z带入到函数中得到一个概率就是正例出现的概率。最大似然:样本中所有情况的概率表示:  ,我们要求的就是

2017-08-03 09:09:48 272

原创 hive数据表清洗

hive数据表的数据清洗,hive中的查询都是基于map-reduce,一般向hive中导入数据的方式主要有四种:1 将本地的文件内容导入到hive中,2:将HDFS系统中的文件导入到hive表中,3:从别的表中查询出数据导入到表中。今天分享一下用map-reduce做数据清理并且将HDFS的文件导入到hive表中的操作,首先我所统计的信息中的字段user_id和subject_id在hive表中

2017-08-02 20:51:45 9232

原创 gitlab在linux下使用

首先要自己现在gitlab上面申请项目,或者是参与到别人的项目,首先先要注册,然后自己生成ssh秘钥,将公钥上传。当我们想下载项目时候:git clone git@gitlab.51y5.net:new432/stat.git然后就下载好了,你可以在目录下进行修改,修改完毕后,git add .git commit -m "这里随便写,是自己修改的描述"git push o

2017-08-02 08:52:53 585

原创 mysql表使用python脚本建立数据表包含多个分区

#coding=utf-8import MySQLdbimport datetimedb = MySQLdb.connect(host="localhost",user="root",passwd="123456",db="yuht",charset="utf8")cursor = db.cursor()string_sql="("begin = datetime.date(2017

2017-08-01 07:57:14 1175

原创 hadoop平台使用以及hive命令

本篇文章记录了自己来公司之后的一些操作,因为公司有保密要求,故所以涉及到密码之类的都会屏蔽掉。我们团队在公司负责的业务就是推荐广告,计算广告的ctr和cvr。处理的数据主要是服务器端生成的日志,按照类别主要有六个日志,ct_show,action,click,down,land,inview,其中ct_show包含了我们所有的信息。由于log的数据量很大,所以我们的操作都是在hadoop平台上进行

2017-07-30 12:39:38 770

原创 基于WiFi 的CSI和RSS混合指纹室内定位

着无线网络和移动设备的普及,基于WiFi信号的室内定位受到越来越多的关注。接收信号强度(RSS)作为一种容易获得的信号特征常用于室内定位系统中。但是,由于RSS是粗粒度信息,其常常受到多径效应及噪声信号的影响,定位性能并不稳定。近年来,商用WiFi设备(如Intel 5300无线网卡)开始支持物理层的信道状态信息(CSI)的获取。CSI能以更细粒度表征信号,通过对不同子信道信号传输情况分别进行

2017-07-08 10:04:53 14137 136

原创 windows下安装pip

Win10安装pip有的python版本中安装好了pip,有的版本没有安装pip,如果没有安装的话,要先下载easy-install.py到python安装目录下(默认C盘的C:\Python27\Scripts)下载方式是打开python解释器输入: from urllib import urlopen data = urlopen('http://peak.telecommun

2017-05-25 01:05:06 241

原创 python 数据挖掘 版本 环境变量

随着大数据和AI越来越火,很多计算机和软件的毕业生把就业领域定位到数据挖掘和机器学习领域。python作为一个不需要编译的脚本语言,以来强大的第三方库,已经成为很多数据科学家的追捧。下面就来说说python版本的选择和安装事宜:版本:python从2.7版本到3.6版本,有很多可以选择的版本,但是最新的版本还不是很好的支持第三方库,所以如果您要import numpy或是scikit-

2017-05-24 14:19:37 233

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除