自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(82)
  • 问答 (2)
  • 收藏
  • 关注

原创 《推荐系统实践》学习记录

看了 项亮 编著的《推荐系统实践》一书,理解还不够深刻,比如里面涉及到的大赛及文章还没来得及看,在此就书中内容做一些记录,后续再去补充。目录第 1 章 好的推荐系统1.1、推荐系统的应用1.2、推荐系统评测1.2.1 推荐系统的试验方法1.2.2 评测指标1.2.3 评测维度第 2 章 利用用户行为数据2.1基于邻域的方法2.1.1 基于用户的协同过滤算法...

2019-05-22 10:31:18 337

原创 机器学习(四)聚类

机器学习(一)LR机器学习(二)SVM机器学习(三)树模型机器学习(四)聚类机器学习(四)聚类目录机器学习(四)聚类1、k-means算法(1)初始值(2)K值(3)中心点的确定(4)优点(5)缺点2、k_means++3、ISODATA(1) 参数(2)分裂(3)缺点(4)参考链接4、kernelk-means...

2019-05-22 10:30:51 1044

原创 机器学习(三)树模型

机器学习(一)LR机器学习(二)SVM机器学习(三)树模型机器学习(四)聚类机器学习(三)树模型目录二、树模型1、ID32、C4.53、CART树(1)算法步骤(2)举例(3)参考链接连续值处理缺失值的处理剪枝集成学习Boosting:Bagging:Stacking:4、RF(1)随机性(2)特征选择:(...

2019-05-22 10:30:28 13715

原创 机器学习(二)SVM

机器学习(一)LR机器学习(二)SVM机器学习(三)树模型机器学习(四)聚类机器学习(二)SVM目录1、目标函数的由来2、凸二次规划问题:3、利用拉格朗日对偶性求解:4、对偶问题:(3)对偶间隙:(4)Slater条件:(5)强对偶:总结:5、outliers离群点:6、核函数:7、SMO(sequential minimal opt...

2019-05-22 10:30:18 1250

原创 机器学习(一) LR

机器学习(一)LR机器学习(二)SVM机器学习(三)树模型机器学习(四)聚类机器学习(一)LR一、SVM 和 LR(1)svm只考虑分类面附近的点,即支持向量,所以对离群点不敏感;LR考虑所有样本点;(2)非线性问题,在计算决策面时,svm只有支持向量参与了核函数;LR若引入核函数,那么每个样本都会参与,使就算量巨大;(3)svm是结构风险最小化算法,就是在训练误差...

2019-05-22 10:29:34 1019

原创 【剑指offer】跳台阶

'''跳台阶,一次 1 or 2步变态跳台阶,一次1, 2,n阶'''class Solution: def Fibonacci(self, n): if n <= 2: return n dp =[0]*n dp[1] = 1 dp[2] = 2 for i ...

2019-03-27 10:49:33 107

原创 【算法4】排序

1、选择、插入、冒泡import java.util.Arrays;import java.util.Collections;import java.util.Scanner;import java.util.Stack;class Sort{ public static int[] swap(int[]nums,int i, int j){ int tem...

2019-03-27 10:49:15 159

原创 要疯了之Matplotlib画图

1、画布颜色def drawn_fig( st, groupby_names , count_name,m,n): st = st.groupby([ groupby_names ])[count_name].mean().reset_index() #画布大小,外围颜色 plt.figure(figsize=(m,n),facecolor='white')...

2019-03-19 23:19:05 148

原创 【剑指offer】切分数组

1、将数组切分为两个和相等的子数组【题意】:给定一个数组nums(仅包含正整数),将这个数组切分为两个子数组,使得这两个子数组的和相等。若能完成上述切分,返回True,否则返回False;【总思路】:0-1背包,和“将数组切分为两个和相等的子数组”想法一样;先初始化一个数组 dp,数组长度为输入数组的累加和, dp[i] = 0表示不存在几个数相加和为 i,存在则为 1 ;若每个...

2018-10-09 22:43:20 403

原创 【剑指offer】背包

1、0-1背包有一个容量为 j 的背包,要用这个背包装下物品的价值最大,这些物品有两个属性:体积 w 和价值 v。一件物品有两种情况:装 or 不装;每个物品只能装一件;对于物品 i,体积为 wi,价值为 vi:(1)i 的体积 &gt; 背包的体积,不装,此时背包的最大价值为不装 i 的价值 :        (1)i 的体积 &lt; 背包的体积,可以装 也可以 不装,...

2018-10-09 16:29:46 452

原创 【剑指offer】子序列问题(递增、公共、摆动)

目录 1、最长的公共子序列2、最长递增子序列(1)DP思想(时间复杂度n*n)(2):二分法找最长递增子序列,并输出(正确输出长度,但不能正确输出子序列)(3):二分法找最长递增子序列,并输出(正确输出长度,但不能正确输出子序列)【改进】:二分法正确输出子序序列3、最长摆动子序列1、最长的公共子序列对于两个子序列 S1 和 S2,找出它们最长的公共子序列。...

2018-10-09 16:28:48 512

原创 机器学习(五)-概率图

目录贝叶斯决策论“”独立同分布:隐马尔科夫模型:1、成对、局部、全局马尔科夫性2、概率无向图模型:3、团与最大团4、HMM解决的三个问题5、三种问题的概率计算方法(1)概率计算问题(前向-后向算法):(2)学习算法(Baum-Welch):(3)预测算法(维比特算法):条件随机场(CRF)1、线性链条随机场:2、线性链CRF的参数化形式...

2018-10-04 13:00:02 9180 1

原创 【剑指offer】矩阵思路

一、【剑指offer】矩阵思路目录一、【剑指offer】矩阵思路1、顺时针打印矩阵2、矩阵路径-包含某字符串3、矩阵的路径-左上角到右下角的总路径数4、矩阵路径-左上角到右下角的最小路径和5、矩阵覆盖6、机器人的移动范围1、顺时针打印矩阵思路:定义r=0,c=0,rows=len(arr)-1,cols=len(arr)-1,从左到右打印第一行,从上到下最后...

2018-09-23 15:03:04 247

原创 后缀表达式转中缀表达式

中缀转后缀:中缀表达式转换为后缀表达式 大概意思就是:遇到数字就输出,遇到符号(包括括号)就压入栈,如果当前符号优先级比栈顶的低,就把栈顶的符号输出,平级的也都输出,到左括号(优先级最高为止),然后当前符号入栈,如果遇到右括号,就将符号栈顶的符号依次输出,遍历完成之后,栈里的符号依次输出即可;括号不用输出;注:这里的后转中,后缀含括号;package OffLineTest;/*...

2018-09-01 23:52:43 8819 4

原创 NLP—fastText、CNN

衡量word embedding质量好坏要通过实际应用来判断;1、fastTextFastText是Facebook开发的一款快速文本分类器.       fastText 方法包含三部分:模型架构、层次 Softmax 和 N-gram 特征。       可以用来训练词向量和进行文本分类,是有监督的分类;1. 模型的输出层:word2vec的输出层,对应的是每一个term,...

2018-08-08 22:33:39 1519 1

原创 机器学习&神经网络—模型评估、正则化

 目录一、模型评估-bias and variance二、特征选择1、过滤式(Relief)2、包裹式(LVW)3、嵌入式选择与L1正则三、L1、L2正则化:1、添加L1和L2正则化有什么用?2、为什么L1可以实现稀疏化,L2不可以?1)数学公式角度2)几何图像角度3、那为什么L2正则化可以获得值很小的参数?4、L2比L1稳定? 三、神经网络...

2018-08-07 23:49:02 3234

原创 Word2Vec原理分析

目录一、Doc2vec二、Word2Vec1、语言统计模型2、n-gram模型3、Huffman树4、神经概率语言模型5、CBOW连续词袋模型6、skip-gram  由当前词预测上下文三、基于 Negative Sampling 的模型 1、CBOW五、基于随机负采样六、总结CBOW:Skip-gram:gloveGlove和ski...

2018-08-07 18:58:03 2502

原创 深度学习-梯度爆炸和梯度消失

1、梯度爆炸和梯度消失        训练很深的神经网络时,随着层数的增加,导数会出现指数级的下降,则导致梯度消失。或者指数级的增加,导致梯度爆炸;本质是梯度传递的链式法则所导致的矩阵高次幂(反向传播会逐层对函数求偏导相乘);1)梯度消失        网络层之间的梯度(值小于 1.0)重复相乘导致的指数级减小会产生梯度消失;       原因: 主要是因为网络层数太多,太深,导致...

2018-08-07 18:48:20 9328 1

原创 深度学习-循环神经网络(RNN)

循环神经网络-RNN目录情感分类(正面,负面)前向传播和反向传播1、前向传播2、反向传播GRU &amp; LSTM一、GRU(Gated Recurrent Unit)二、LSTM(Long  Short-Term Memory)学习链接:零基础入门深度学习(6) - 长短时记忆网络(LSTM)Word2Vec数学原理详解       隐层连接着输...

2018-08-07 18:48:00 1907

转载 结合Scikit-learn介绍几种常用的特征选择方法

原文链接:https://blog.csdn.net/bryan__/article/details/51607215感谢作者!特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解...

2018-05-05 22:57:32 639

原创 【java】 构造函数、单例、静态、抽象、继承、接口、多态、Object

1、构造代码块是给所有的对象进行初始化;     构造函数是给对应的对象初始化;2、当在类中自定义了构造函数后,默认的构造函数就没有了;    构造函数是在对象一建立就运行,给对象初始化;    而一般的方法是在对象调用才执行,给对象添加对象具备的功能;    一个对象建立,构造函数只运行一次;而一般方法可以被该对象调用多次;3、public static void main(String[] a...

2018-05-01 16:14:40 189

原创 java map、set

1、创建 map ,添加键值 String inpath ="";         String encoding = "utf-8"; BufferedReader br = null; br = new BufferedReader(new InputStreamReader(new FileInputStream(inPath), encod...

2018-04-24 12:49:34 169

原创 java 读、写

1、标准“读”、“写”br.readLine() 会报IOException 错误, 直接throws IOException 即可,在main函数中,也可以不写try...catch,类似test, throws IOException即可。public static void test(BufferedReader br,BufferedReader br2, PrintWriter writ...

2018-04-24 12:39:47 175

原创 一小时建立数据分析平台

创建虚拟环境:conda create -n superset python=3.4激活虚拟环境:(source) activate superset安装superset: pip install superset  -i https://pypi.douban.com/simple ,使用了豆瓣的镜像源,速度很快(若出现sasl错误,则单独 pip insatll 安装,再重复上一动作   ,下...

2018-04-24 12:26:11 313

转载 使用sklearn做单机特征工程

原文链接:http://www.cnblogs.com/jasonfreak/p/5448385.html感谢作者分享!使用sklearn做单机特征工程目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据...

2018-04-14 10:03:17 226

转载 使用sklearn优雅地进行数据挖掘

原文链接:http://www.cnblogs.com/jasonfreak/p/5448462.html在此感谢读者。目录1 使用sklearn进行数据挖掘  1.1 数据挖掘的步骤  1.2 数据初貌  1.3 关键技术2 并行处理  2.1 整体并行处理  2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘...

2018-04-13 16:46:43 152

原创 工作中遇到的问题3:seaborn画图,特征重要性,洗牌(重组),代码运行时间

1、画图import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline#para_list为字段名,train为数据集,'label'为标签:0,1(观察0,1数据的分布)for para in paraz_list: fac...

2018-03-15 14:32:09 963

原创 python版本和库链接,错误集合

python库:https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboostanaconda版本:https://repo.continuum.io/archive/1、python3.5/3.6安装pyltp报与microsoft相关错误,pip默认安装的是0.2.0版本,改为:pip install pyltp==0.1.9.1即可。2、安装xgboo...

2018-03-15 14:02:09 177

原创 工作中遇到的问题2:双层for循环不敌dict

问题1衍生出来的,有一个字段‘update_time’,从小到大排序,10分钟为一个mark。之前的做法是,先求得最大时间和最小时间之间有多少个10分钟,以十分钟十分钟的存入一个list,外层遍历‘update_time’,内层用每个time去list里面比较,取出索引值,具体如下: df = df.sort_values('update_time', ascending=True) # ...

2018-03-07 16:00:52 308

原创 工作中遇到的问题1:空值与空字符串

一份数据,在服务器上是空字符串,导入本地后是空值,所以在处理时报了错。服务器上,读入文件后,将空字符串转换为空值即可,data.replace('',np.NaN),若不需要空值,可用dropna剔除。总结:出现问题时,得究其根本。...

2018-03-05 10:05:59 637

原创 【java day5】构造代码块、构造函数

1、this/*this: 那个对象在调用this所在函数,this就代表哪个对象;this的应用: 当定义类中功能时,该函数内部要用到调用函数的对象时,这是用this来表示这个对象。 但凡本类功能内部使用到了本类对象,就用this*/class Person{ private String name; private int age; Person() { Sy

2017-12-05 22:31:08 208

原创 【java day4】人民币数字转汉字

1、/* 人民币——数字转汉字*/class Num2Rmb{ private String[] hanArr={"零","壹","贰","叁","肆","伍","陆","柒","捌","玖"}; private String[] unitArr = {"十","千","百"}; /* 把一个浮点数分解成整数部分和小数部分 @param num 需要被分解的数 @ret

2017-12-05 22:17:43 275

原创 【java day 04】选择/冒泡排序

1、冒泡排序/*冒泡排序:相邻的两个元素相比较,符合条件换位;最先固定的是最后一个,每一轮参与的元素比上一轮少1output:[9,8,6,5,4,3,2,1]*/class ArraySort{ public static void main(String[] args) { int[] arr={5,1,6,4,2,8,9}; printArray(arr)

2017-12-05 22:12:16 143

原创 【java day4】 数组 Array,最大/小值,进制转换

1、一维数组  输出/* 输出数组*/class ArrayDemo1{ public static void main(String[] args) { //int [] arr = new int[5]; int [] arr={1,2,3,4,5,6}; System.out.println(arr[1]); System.out.println("ar

2017-12-05 21:48:30 181

原创 【java day3】函数、for、while

for、while ,九九乘法表,倒三角

2017-12-05 21:02:41 206

原创 table 和 pivot_table

透视表在处理时序问题上很方便,处理完后可转换为常规table,便于统计。举例说明:   class_id     dates  sale_num0      1001  20150101         31      1001  20150102         62      1001  20150103         7...In[]:data = pd.pivot_table...

2017-11-27 15:17:04 571

转载 时间序列规则法快速入门

时间序列

2017-11-23 19:55:23 1136

原创 pandas 日期处理

1、时间字符串,提取日期、小时 USER_ID SHOP_ID TIME_STA DATE HOUR0 22127870 1862 2015-12-25 17:00:00 2015-12-25 171 3434231 1862 2016-10-05 11:00:00 2016-10-05 11df['...

2017-11-15 18:03:28 7415 1

原创 ubuntu中Python2和python3—pip问题

ubuntu、python、pip

2017-10-10 16:41:59 7424

原创 【爬虫】爬取猫眼电影top100

正则表达式、mysql、csv、txt

2017-09-08 22:07:22 2747

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除