![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习学习心得
Wanderist_ZK
微信小程序:论文快看
微信公众号:深度学习与推荐系统
展开
-
搭建自己的微信公众号聊天机器人-基于深度学习
截至2020.1.31 1点13分已经完成模型的部署与聊天机器人的上线。总共花了整整两天时间,总结一下过程中学到的和踩过的坑,持续更新中~1.github的使用。 git文件的命名不能有_符号,否则不能上传成功。2.模型配合要用到神经网络,因此最好用python语言写web和服务器端,所以采用flask3,学会如何把自己的ubuntu电脑编程一台服务器,需要把本地ip和外网打通...原创 2020-01-31 01:18:03 · 1160 阅读 · 0 评论 -
多值类别特征加入CTR预估模型的方法
我们都知道一般单值类别特征加入到CTR预估模型的方法是先对单值类别特征进行one-hot,然后和embedding 矩阵相乘转换成多维稠密特征,如下图 1 所示:▲ 图1. 单值类别特征处理方法上篇文章稠密特征加入CTR预估模型的方法中又总结了稠密特征加入到CTR预估模型中的方法。而在现实实际问题中,往往还会出现多值类别特征,比如我接触到的2019腾讯广告算法大赛中用户的行为兴趣特征...原创 2020-01-06 17:48:49 · 655 阅读 · 1 评论 -
【python编程时需要注意的问题总结一】
1.一定要注意变量类型的统一与变换,例如:user_id_7 = [it for it in user_id_7 if it not in regi_7_user_id]其中regi_7_user_id为DataFrame类型,没有转换成list,程序不报错,但是并不是我想要的结果,因此一定要先转换成类型list,再遍历,这样才能实现集合的差。user_id_7 = [it for it in l...原创 2018-06-01 10:43:08 · 458 阅读 · 0 评论 -
2018中国高校计算机大赛—大数据挑战赛(top2解题方案)
比赛链接:https://www.kesci.com/home/competition/5ab8c36a8643e33f5138cba4/leaderboard/1相关链接:https://mp.weixin.qq.com/s/fSRB5T3himBEYrLwW9p62A比赛介绍:https://mp.weixin.qq.com/s/vYtcnwLtHsb70viejBR3Rw经过激烈...原创 2018-09-12 16:32:56 · 9210 阅读 · 1 评论 -
python学习小知识点总结(一)
1.遇到shape是(22,)这样的其实是按行排列的【1,2,3.......22】2.K.sum(array,axis=-1)的效果和K.sum(array,axis=1)的效果一样,都是按行进行加和,axis=0代表按列进行加和3.在对别人代码学习时一定要注意自己的电脑环境需与其要求一致...原创 2018-09-12 16:40:19 · 216 阅读 · 0 评论 -
Kaggle Whale Shark Recognition 比赛途中经验总结
在准备这个比赛的过程中感觉学到了不少,现在总结一下:经过好几次的比赛与论文写作经历,个人认为比赛和写论文做实验最大的一个区别就是:论文中所引用的都是标准数据集,一般数据集质量高,而比赛中的数据集噪声就比较大,比如,拿到这个比赛的数据集,我们可以看到里面即有黑白图,又有彩色图,既有带文字的图片,又有没带文字的,并且有的zoom比较大,有的zoon比较小,最重要的也是这个比赛的核心难题(挑战)就是...原创 2019-01-02 10:44:02 · 348 阅读 · 0 评论 -
t-SNE和PCA方法对应的python包
t-SNE和PCA都是可以用来对数据进行降维的,然后python中可以调用对应的包进行实现。t-SNE(from sklearn.manifold import TSNE)pca(from sklearn.decomposition import PCA)开了一个技术交流的公众号,里面记录一些在学习有关深度学习,推荐系统与机器学习过程中的笔记与心得,欢迎关注~ ...原创 2019-01-03 16:36:14 · 1123 阅读 · 0 评论 -
anaconda利用conda命令搭建python虚拟环境(python3.6为例),附带pytorch环境搭建,添加conda清华源,pip清华源
1.先安装anaconda安装包,Python3.6版本的2.然后运用conda命令新建一个python虚拟环境,conda create -n [name] python=3.6 -y ,这样就新建了一个名字为name 的Python虚拟环境3.然后对虚拟环境进行激活,命令为 source activate name在这里python虚拟环境就新建成功啦4.添加conda,pip...原创 2019-01-11 20:21:06 · 11359 阅读 · 0 评论 -
推荐系统学习笔记与感悟(结合商汤做CV产品)
(1)深入理解推荐需求比算法更重要(2)深入理解业务目标比算法更重要(3)对数据的理解和处理比算法更重要(4)对用户的理解比算法更重要(5)多个模型的融合可以提高预测准确性,但实际应用中需要权衡成本(6)一个推荐系统应该从多个指标去综合评价,追求单一指标是危险的(生态思维)(7)随着移动互联网时代的发展,智能推荐会变得越来越重要...原创 2019-09-08 22:06:34 · 268 阅读 · 0 评论 -
推荐算法相关名词解释(updating)
Click-through rate:点击率dense vector:稠密矩阵,例如 embedding vector etc.sparse vector: 稀疏矩阵,例如 one-hot vector etc.一般通过embedding操作或FM操作把sparse vector转化为dense vectorFM:Factorization Machine,因子分解机 6 = 4 + ...原创 2019-09-18 15:36:30 · 1799 阅读 · 0 评论 -
【lightgbm 使用经验总结教训】
做快手公司举办的2018中国高校计算机大赛--大数据挑战赛有半个月了,从5月30日开始到现在基本一直在构造特征,但是当我构造的特征到后期的时候,发现加特征之后,明明验证集上的准确率提高了,但是线上的结果一直提不上去,我怀疑的是特征的问题,但是今天6月13日,我仔细看了lightgbm算法的说明文档后才发现,我用的earlystopping方法一直没有用迭代最好的那一次去预测,即这个同...原创 2018-06-13 13:49:14 · 20998 阅读 · 6 评论 -
【极限学习机ELM与DELM——python实现与应用】
一、对ELM算法与DELM算法的理解ELM算法和神经网络算法我认为最大的区别在于:ELM不需要进行迭代,而是一次性通过标签计算出最后一层神经元的权重。而神经网络是通过梯度下降的方法,不断的根据loss值更新权重值。因此我认为ELM算法不适合构造出更深的网络结构,但是减少了计算量,少了机器开销。而DELM相对于ELM加入了正则项的限制,防止过拟合。二、算法描述(以ELM算法为例)1....原创 2018-05-23 18:33:50 · 20252 阅读 · 49 评论 -
【阅读论文方法总结】
1.快速浏览摘要,看是否有自己需要的东西。2.如果需要,github上查找相关论文代码,对照着论文进行阅读,这样效率高,能够快速理解原创 2018-05-25 15:10:24 · 969 阅读 · 0 评论 -
【天池比赛服装关键点检测fashionAI_landmark_detect踩坑笔记(一)】
原有思路:利用已有的在ImageNet数据集上分类效果好的网络为基础,对服装图像数据集进行特征提取,然后进行回归,分别得到需要定位的关键点。注意:由于convNet越往深层提取的特征越是高层特征,视野更广,而相对一些边缘信息等浅层特征会被忽略,因此在用VGG16进行回归时NE效果是28%,比较差。改进点:(1)可以通过减少网络的层数来看关键点检测的准确率(2)可以...原创 2018-05-17 17:39:32 · 2600 阅读 · 3 评论 -
【python人工智能开发过程中的小技巧——keras在线加载mnist数据集】
今天在学习capsuleNet时,在github上找到了keras在mnist数据集上训练的源码,但是运行时被卡在了一个地方,就是keras中自带的minist.load_data()函数,后来通过CTRL+右键寻其源码发现,原来加载数据的那个网址被墙了,代码如下:def load_data(path='mnist.npz'): """Loads the MNIST dataset...原创 2018-05-09 22:17:11 · 768 阅读 · 0 评论 -
【keras学习——Flatten层的用法】
flatten层用来扁平参数用,一般用在卷积层与全链接层之间,可以从vgg16网络中可以看出,但是在后来的网络中用GlobalAveragePooling2D代替了flatten层,可以从vgg16与inceptionV3网络对比看出。从参数的对比可以看出,显然这种改进大大的减少了参数的使用量,避免了过拟合现象。开了一个技术交流的公众号,里面记录一些在学习有关深度学习,推荐系统...原创 2018-05-10 15:44:53 · 18153 阅读 · 0 评论 -
【天池比赛服装关键点检测fashionAI_landmark_detect踩坑笔记(二)】
1.参考风格迁移里面的思想。2.参考yolo算法。3.relu激活函数的修改4.训练时可以不用预训练好的权重,直接所有权重从头训练。5.对于验证集与训练集没有进行区分,应该用训练集进行训练6.验证方法有交叉验证与留一法,对于比赛而言可以进行模型融合来提高比赛结果。...原创 2018-05-10 20:56:19 · 1418 阅读 · 0 评论 -
【机器学习pandas踩坑(一)】
1.对于pandas中的dataframe中存在一个神奇的词叫index2.因此在用pd.to_cvs()时如果不想自动生成index,切记一定要写成pd.to_cvs(‘name.cvs’,index=False)3.同时注意pd.values是除去掉index的值4.在存储CSV文件时如果定义分隔符了,那么在读取文件时对应的也需要定义分隔符这个属性。如下:pd.to_cvs(‘name.cvs...原创 2018-05-11 10:56:17 · 254 阅读 · 0 评论 -
【天池比赛服装关键点检测fashionAI_landmark_detect——关于导入图片解决内存不够问题】
由于图像的数据量还不小,总共有31631张图片,并且每张都是512*512*3大小的图片,无法一次性导入内存中,因此采用类的方法,实现每次只导入内存一个batch的图片。需要设计两个类,第一个类是ImageData:class ImageData: """ """ def __init__(self, img_ids, img_dir, ...原创 2018-05-17 20:13:44 · 815 阅读 · 1 评论 -
【天池比赛服装关键点检测fashionAI_landmark_detect踩坑笔记(三)】
1.通过对embeddeding层的运用可以实现一个模型对五种服装的关键点定位,思路是通过不同类的softmax与预测的24个坐标相乘。2.residualNet中的GlobalAveragePooling层可以借鉴学习3.inceptionNet中的channelConcatenate层可以借鉴学习4.改变tensor的width和height维度可以通过卷积操作与上采样5.改变channel的...原创 2018-05-11 20:51:00 · 1651 阅读 · 0 评论 -
【机器学习相关包pandas,sklearn,numpy,matplotlib学习工具经验总结(一)】
pandas学习网址推荐:点击打开链接;github的jupyter链接sklearn学习网址推荐:点击打开链接;github的jupyter链接numpy学习网址推荐:点击打开链接;GitHub的jupyter链接matplotlib学习网址推荐:点击打开链接;github的jupyter链接...原创 2018-05-12 00:13:40 · 4317 阅读 · 0 评论 -
【学习deep learning过程中的一些个人见解】
看了一些前人架构的经典网络结构,个人认为网络从始至终都是对tensor,俗称矩阵在进行变换的运算,从最原始的一张图像,把它转换成一个矩阵之后,就有一系列的矩阵运算,比如卷积操作,池化操作,全链接操作等等,抽象出来就是做数学运算,并且这个数学运算可导,也就是这些运算公式的参数可以学习,只要你设计出来的计算过程被验证得到的结果好,你这个网络就设计的好。从Lenet,到Alexnet,再到vgg...原创 2018-05-12 11:11:35 · 214 阅读 · 0 评论 -
【用python搞机器学习与人工智能学习心得与经验】
大多数人在入门机器学习和人工智能时都需要学习python,于是就有许多人买了一本python从入门到精通类似的书,或者就买一本python基本语法的书。本人开始也一样,但是在学习的过程中发现,即使看完了python的基本语法,还是不会把python应用到机器学习中来。 辗转反侧,后来觉得时自己的机器学习理论基础不够,又买了李航的统计学习方法与周志华的机器学习,再结合实验室的研究方向...原创 2018-05-02 19:56:24 · 3275 阅读 · 0 评论