自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 lightFM 数据流向和 优化过程

如下:左侧为 数据流向图右侧为优化迭代图

2019-07-22 17:01:53 412 1

原创 推荐系统中的矩阵压缩

推荐系统中存在大量的数据稀疏的情况。比如有几亿用户,几千万的商品。他们的交互数据可以用一个巨大的矩阵来表示。直接保存这么大的矩阵,是不现实的。在这个大大矩阵中,绝大部分都是零值。而我们需要数据为矩阵中的非零值和非零值所在的位置,此时,我们就用到了的矩阵压缩技术。scipy提供相应的api。矩阵压缩可以大致分为三类:1. 直接保存行,列,datacoo_ma...

2019-07-11 14:16:46 311

原创 常见数据分析work(2)

4. 相关性分析离散变量与离散变量:1. 卡方检验:主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实2.际频数的吻合程度或拟合优度问题。2. 信息增益和信息增益率: 信息增益=熵-条件熵 信息增益率=(熵-条件熵)/条件熵离散变量与连续变量:1.连续变量离散化2. 箱型图连续变量与连续变量:pearson检...

2019-07-11 13:56:34 248

原创 FM/FFM自动化特征工程+GBDT

实验:使用的数据集为天池新人赛中的,优惠券使用预测。利用FM/FFM做自动化特征工程,利用GBDT进行预测。结论:先说结论,用FM/FFM 来自动化特征工程的效果并不好,不如人工构建特征+GBDT原因:在GBDT模型下加入FM/FFM一阶特征,并没有起到提高AUC的作用,反而略微下降。因为新加入的特征本身就存在原来的特征中,为共线性的特征,产生了干扰。所以没有必要加入一阶特征,...

2019-07-11 13:45:15 1770 1

原创 csv 转 ffm

1. FFM介绍FFM最初的概念来自Yu-Chin Juan与其比赛队员,是他们借鉴了来自Michael Jahrer的论文中的field概念提出了FM的升级版模型。通过引入field的概念,FFM把相同性质的特征归于同一个field。FFM 模型不同于常见的DataFrame格式文件,需要将数据格式转换成如下所示的格式:y field_1:index_1:value_1 ...

2019-07-03 16:14:15 270

原创 随手笔记

1. loc 和 iloc的区别loc 标签索引iloc 位置索引tt.loc[1603,'f1'] #搜寻 index=1603, col='f1'的值tt.iloc[1,2] #搜寻 位于第2行,第3列的数据2. dataFrame 常见信息查询def dfInform(dataName): print("1. 输出前10行数据:") print(d...

2019-06-21 12:01:20 107

原创 linux 初步学习 (4) 其他指令

1.全局正则表达式搜索过滤搜索,可以正则表达式匹配命令:grep (Global Regular Expression Print) 格式:grep [option] pattern filenames 功能:逐行搜索所指定的文件或标准输入,并显示匹配模式的每一行。 选项:-i 匹配时忽略大小写 -v 找出模式失配的行 ps -e...

2019-06-11 09:49:11 134

原创 linux 初步学习(3) 权限相关命令

1.更改档案拥有者命令 : chown [-cfhvR] [--help] [--version] user[:group] file...功能 : 更改文件或者文件夹的拥有者参数格式 : user : 新的档案拥有者的使用者 IDgroup : 新的档案拥有者的使用者群体(group) -c : 若该档案拥有者确实已经更改,才显示其更改动作 -f : ...

2019-06-11 00:44:59 87

原创 linux 初步学习(2) 进程相关命令

#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Thu May 9 20:51:54 2019@author: tide"""1.linux 查看进程命令进程命令:psps a 显示现行终端机下的所有程序,包括其他用户的程序。ps -A 显示所有程序。ps c 列出程序时,显示每个程序真正的指令名称,而...

2019-06-11 00:40:43 73

原创 liunx 初步学习(1) vim的使用

1.vi/vima. 进入输入模式新增 (append)a :从光标所在位置後面开始新增资料,光标後的资料随新增资料向後移动。A:从光标所在列最後面的地方开始新增资料。插入 (insert)i:从光标所在位置前面开始插入资料,光标後的资料随新增资料向後移动。I :从光标所在列的第一个非空白字元前面开始插入资料。开始 (open)o :在光标所在列下新增一列并进入输入模式。...

2019-06-11 00:38:18 75

原创 Python 网络爬虫 多进程爬虫

多进程爬虫能节约时间,以爬取糗事百科中的内容和内容发布者两个维度的资料为例import requests #请求网页import re import timefrom multiprocessing import Pool#复制 user-agent,伪chrome装浏览器headers = { "User-Agent":"Mozilla/5.0 (Windows; U;...

2019-06-11 00:31:58 312

原创 python 网络爬虫 与数据库

这是一个简单的爬取豆瓣电影TOP250的代码,爬去了每一条电影的18个维度的数据,并且将他们存储在本地的mysql数据库中.详细代码如下.requests :请求网页,获取网页数据lxml:使用xpath语法快速解析网页数据# -*- coding: utf-8 -*-"""Created on Tue Jan 22 20:55:02 2019@author: tide1...

2019-06-11 00:29:31 546

原创 记录一次的算法面试

一个公司给的面试题,300特征预测Label的值,特征没有给任何具体的含义,label也没给part 1 包的导入数据读入`# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport lightgbm as lgbfrom sklearn.model_selection import KFoldfrom ...

2019-06-10 23:48:26 248

转载 文件读取

1.read()、.readline()和.readlines() 1.调用read()会一次性读取文件的全部内容,如果文件太大了,内存就爆了,所以,要保险起见,可以反复调用read(size)方法,每次最多读取size个字节的内容。2.调用readline(n)可以每次读取一行内容,读取第n行内容3.调用readlines()一次读取所有内容并按行返回list。因此,要根据需要...

2019-06-09 00:02:26 83

原创 假设检验与常见的统计检验方法

1.假设检验:1.1 基本思想:小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生,在这个方法下,我们首先对总体作出一个假设,这个假设大概率会成立,如果在一次试验中,试验结果和原假设相背离,也就是小概率事件竟然发生了,那我们就有理由怀疑原假设的真实性,从而拒绝这一假设1.2 P值P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。...

2019-06-08 01:41:56 5909

原创 常见数据分析work(1)

1.描述性统计 描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的...

2019-06-08 01:26:57 461

原创 MySql 题目实战

1.查找最晚入职员工的所有信息 子查询 maxselect * from employees where hire_date= (select max(hire_date) from employees)2. 查找入职员工时间排名倒数第三的员工所有信息 order desc 从小到大排序 limit m,n...

2019-06-07 15:53:25 370

原创 Java IO

'''1.字符流和字节流'''字符流:处理作字符、字符数组或字符串,如纯文本数据 输出主要是使用Writer类完成,输入流主要使用Reader类 处理的单元为2个字节的Unicode字符字节流:处理二进制数据,操作字节和字节数组。如图片歌曲等 输出OutputStream完成,输入使的是InputStream 处理单元为1个字节''' 2.Fi...

2019-05-22 21:09:59 53

原创 Java异常分类

'''1.非检查型异常''' 自身逻辑错误异常 RuntimeException的派生类都是非检查型异常,NullPointException,ClassCastException是常见的非检查型异常。非检查型异常可以不使用try...catch进行处理,但是如果有异常产生, 则异常将由JVM进行处理。对于RuntimeException的子类最好也使用异常处理机制。虽然Ru...

2019-05-21 23:03:31 269

原创 赋值,浅拷贝,深拷贝的区别

"""赋值,浅拷贝,深拷贝的区别@author: tide"""import copyalist=[1,2,3,['a','b']]b=alist #赋值传递print (b)b_shallow=copy.copy(alist) #浅拷贝b_deep=copy.deepcopy(alist) #深拷贝alist.append(5)alist[3].appe...

2019-05-21 00:08:20 173

原创 JAVA 多线程学习

'''1. 线程导学上'''实现线程方法: 1>继承Thread 2>实现Runnable接口Thread类也是Runnable接口子类,但Thread并没有重写Runnable中的run方法,故在使用Thread必须重写run。另外,通过Thread并没有实现资源数据共享,而runnable可以进行资源共享。线程同步 1>几个线程共享...

2019-05-20 23:35:27 59

原创 mysql事务问题

# -*- coding: utf-8 -*-'''1.事务的四大特性'''事务是一组原子操作单元,从数据库角度说,就是一组SQL指令,要么全部执行成功,若因为某个原因其中一条指令执行有错误,则撤销先前执行过的所有指令。⑴ 原子性(Atomicity)原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚。⑵ 一致性(Consistency)一致性是指事务必须使数据库从一个一致性...

2019-05-20 20:54:11 103

原创 mysql 多表查询

'''1.笛卡尔集'''select *from worker,location'''2.内连接'''select *from worker inner join locationon worker.country=location.country;'''3.左外连接,右外连接'''select *from worker left join locationon...

2019-05-20 20:46:07 58

原创 mysql基础查询

#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Tue Apr 16 12:17:21 2019@author: tide"""+------------+-----------+------+--------+--------+-------------+---------+| first_name | las...

2019-05-20 20:43:49 109

原创 mysql入门操作

'''1.增'''INSERT INTO WORKER(FIRST_NAME,LAST_NAME,AGE,SEX,INCOME)VALUES ('liu','bei','60','m','20000'), ('cao','cao','58','m','15000'), ('sun','quan','40','m','13000');'''2.修改列'''...

2019-05-20 20:39:09 82

原创 mysql 索引

'''1.基础知识'''定义:主键(primary key):唯一标识一条记录,不能有重复的,不允许为空外键(forigen key):表的外键是另一表的主键, 外键可以有重复的, 可以是空值索引(index):是对数据库表中一列或多列的值进行排序的一种结构作用:主键:用来保证数据完整性外键:用来和其他表建立联系用的索引:是提高查询排序的速度个数:主键:主键只能有一个...

2019-05-20 20:34:43 91

原创 RNN之seq2seq模型

1.RNN模型概述RNN大致可以分为4种,输出和输入序列不同数量rnn可以有多种不同的结构,不同结构自然就有不同的引用场合。如下图所示:one to one 结构: 仅仅只是简单的给一个输入得到一个输出,此处并未体现序列的特征,例如图像分类场景。one to many 结构:给一个输入得到一系列输出,这种结构可用于生产图片描述的场景。many to one 结构: 给一系列输入得到...

2019-03-09 19:03:28 3549 2

原创 word2vec初步使用

word2vec是google在2013年推出的一个NLP工具,,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。一时间无word2vec,不文本分析。本文主要介绍了如何利用 gensim来进行训练 。'''1.数据导入'''从网上下载imdb50000数据压缩包,解压后发现里面存在train,test两个文件夹。每个文件夹...

2019-02-25 09:40:54 384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除