- 博客(375)
- 资源 (19)
- 收藏
- 关注
原创 TensorFlow安装、变量学习和常用操作
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer安装、入门环境说明:deepin 15.4python 3.5.4tensorflow...
2018-04-17 00:55:28 1442
原创 机器学习中的AUC理解
转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 最近在做GBDT模型,里边用到胡模型评价方法就是AUC,刚好趁此机会,好好学习一下。混淆矩阵(Confusion matrix)混淆矩阵是理解大多数评价指...
2018-04-15 02:51:19 5602 1
原创 梯度提升决策树-GBDT(Gradient Boosting Decision Tree)
转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 研究GBDT的背景是业务中使用到了该模型,用于做推荐场景,当然这里就引出了GBDT的一个应用场景-回归,他的另外一个应用场景便是分类,接下来我会从以下几个方面去学习...
2018-04-12 00:43:51 7636
原创 Softmax Regression
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上...
2018-03-29 08:19:33 1911
原创 推荐系统的一些思考
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 推荐系统一直以来都是电商网站必不可少的一项,在提升用户转化,增加GMV方面可谓功不可...
2018-03-26 05:55:06 2213
原创 Scala 解析 XML
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 在使用Spark时,有时候主函数入口参数过多的时候,会特别复杂,这个时候我们可以将相应的参数写在xml文件中,
2018-02-04 16:45:36 4924
原创 Spark求统计量的两种方法
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer Spark对于统计量中的最大值,最小值,平均值和方差(均值)的计算都提供了封装,这里小编知道两种计算方法,整理
2018-02-04 16:44:07 5198
原创 记一次百G数据的聚类算法实施过程
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 如题,记一次百G数据的聚类算法实施过程,用的技术都不难,spark和kmeans,我想你会认为这没有什么难度,
2018-01-26 21:20:45 2022 2
原创 Spark多路径输出和二次排序
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 在实际应用场景中,我们对于Spark往往有各式各样的需求,比如说想MR中的二次排序,Top N,多路劲输出等。
2018-01-25 00:24:31 2202
原创 Spark提交参数说明和常见优化
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 最近在搞一个价格分类模型,虽说是分类,用的是kmeans算法,求出聚类中心,对每个价格进行级别定级。虽然说起
2018-01-23 00:40:48 15026 2
原创 梯度算法之批量梯度下降,随机梯度下降和小批量梯度下降
在机器学习领域,体梯度下降算法分为三种- 批量梯度下降算法(BGD,Batch gradient descent algorithm)- 随机梯度下降算法(SGD,Stochastic gradient descent algorithm)- 小批量梯度下降算法(MBGD,Mini-batch gradient descent algorithm)
2017-12-14 19:23:10 4588
原创 梯度算法之梯度上升和梯度下降
第一次看见随机梯度上升算法是看《机器学习实战》这本书,当时也是一知半解,只是大概知道和高等数学中的函数求导有一定的关系。下边我们就好好研究下随机梯度上升(下降)和梯度上升(下降)。
2017-12-13 22:48:02 16836 3
原创 异常检测之指数平滑(利用elasticsearch来实现)
指数平滑法是一种特殊的加权平均法,加权的特点是对离预测值较近的历史数据给予较大的权数,对离预测期较远的历史数据给予较小的权数,权数由近到远按指数规律递减,所以,这种预测方法被称为指数平滑法。它可分为一次指数平滑法、二次指数平滑法及更高次指数平滑法。
2017-11-20 17:17:44 4972
原创 回归分析之Sklearn实现电力预测
使用pandas读取数据,加载到sklearn的线性回归函数中,进行模型训练,预测,并对最终结果进行画图展示。
2017-11-07 13:39:13 6739 1
原创 回归分析之线性回归(N元线性回归)
在上一篇文章中我们介绍了 回归分析之理论篇,在其中我们有聊到线性回归和非线性回归,包括广义线性回归,这一篇文章我们来聊下回归分析中的线性回归。
2017-09-29 16:45:01 3081
原创 几种距离计算公式在数据挖掘中的应用场景分析
本文涉及以下几种距离计算公式的分析,参考资料为《面向程序员的数据挖掘指南》- 曼哈顿距离- 欧几里得距离- 闵可夫斯基距离- 皮尔逊相关系数- 余弦相似度
2017-09-20 10:23:44 8145
原创 回归分析之理论篇
2015年的机器学习博客其实都是看《机器学习实战》这本书时学到的,说实话当时也是知其然,不知其所以然,以至于对其理解不深刻,好多细节和理论知识都搞的是乱七八糟,自从工作之后再去看一个算法,思考的比之前多了点,查看资料也比之前多了点,生怕理解错误,影响其他人,当然在理解的程度上还是不够深刻,这也是一个学习的过程吧,记录一下,欢迎指正。
2017-09-17 08:10:07 4465
原创 数据归一化和其在sklearn中的处理
数据归一化(标准化)处理是数据挖掘的一项基础工作,不同评价指往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价
2017-09-01 11:33:48 23941
原创 异常检测之正态分布
在数据挖掘中,异常检测(英语:anomaly detection)对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的
2017-08-29 19:27:45 15636 1
原创 K-means 聚类算法的理解与案例实战
工作之后,发现对算法和技术的理解和上学时学习是不一样的,当时也整理了几篇关于k-means聚类的文章,但是现在看起来比较苍白和空洞,于是打算带着重新学习的态度对以往学习过或者见过的一些机器学习算法进行温习和总结,写的不足之处还望路过大神指点一二。
2017-07-25 23:41:40 15925 31
原创 MachingLearning中的距离和相似性计算以及python实现
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer前言写这篇文章的目的不是说摘抄网上其他人的总结,刚才最近在看这方面的东西,为了让自己能够实际的去感受下...
2017-07-16 12:14:54 8761 6
原创 Scrapy 爬取百度贴吧指定帖子的发帖人和回帖人
该篇文章将是Scrapy爬虫系列的开篇,随后会不定时更新该框架方面的内容和知识,在scrapy之前写爬虫主要用的BeautifulSoup, request 和urllib,但随着使用程度的加深,慢慢意识到功能和效率都是不够的,那么便重新接触了Scrapy框架,并尝试着写出一些有趣的东西。
2017-07-13 09:26:38 5509
原创 推荐算法的回顾总结
之前看过一段时间协同过滤的推荐算法,当时理解并不深刻,对于其浅显的理解是从海量数据中挖掘出小部分与你品味相同的用户,协同过滤分为基于用户的和基于物品的。
2017-07-05 01:13:18 9619 4
原创 一切的闹闹哄哄,只是他在水帘洞躲避风沙那晚做的一个梦
送同学走之后,我在路边默默的站了有五分钟,突然觉得我无处可去,有一种深入骨髓的悲哀和无奈,然后我就想起了一个命题,“如今的你,何去何从!”我不知道为什么会突然想到这样一个命题,或许是我们每个人都是至尊宝吧。其实每个人对《大话》的理解都是有所不同的,同样的人在不同的时期认识也会有偏差,就好比我第一次看的时候,笑得腹背抽筋,呲牙咧嘴,第二次看的时候,笑得少了,想的多了,过后便什么感觉也没有了,第三次看得时候,忽然觉得不知
2017-04-16 01:03:58 3008
原创 使用filebeat进行数据加密传输和区别不同的日志源
数据在远程传输过程中,可能被劫持和获取,继而造成的后果是数据信息泄露,那么如何有效的进行数据传输呢,在ELK Stack中filebeat 提供了这样的一个解决方案,其不仅可以监听指定文件夹的数据,还可以对数据进行TLS 双向认证加密,从而保证数据传输过程中的可靠性。
2017-04-06 21:40:19 8372 2
原创 __str__ returned non-string (type int)
这个问题是我在做这个项目【<a href="https://github.com/Thinkgamer/CSMarket">点击查看</a>】时遇到的,主要是因为以前在使用django的models时,在models的__str__(self) 函数时,默认返回的字段都是CharField类型的,而在这次返回了一个IntegerField类型导致出现了题目中的错误。
2017-04-06 00:11:43 8072
原创 Logstash:从grok到5.X版本的dissect
grok 作为 Logstash 最广为人知的插件,在性能和资源损耗方面同样也广为诟病。为了应对这个情况,同时也考虑到大多数时候,日志格式并没有那么复杂,Logstash 开发团队在 5.0 版新添加了另一个解析字段的插件:dissect。当日志格式有比较简明的分隔标志位,而且重复性较大的时候,我们可以使用 dissect 插件更快的完成解析工作
2017-03-29 01:08:22 6043
原创 一柱香,一页文带你走进Logstash的世界
Logstash在ELK这个技术栈中占据着重要的位置,所有的数据都要经过logstash的解析,才能格式化的存入ES中,那么对于Logstash的学习也是十分重要的,今天这篇文章我们将看一下logstash的基本知识,后续会有更多细节性的文章和使用案例文章,请持续关注博主和ELK Stack 从入门到放弃专栏
2017-03-29 00:55:09 9285
原创 11. Django 引入富文本编辑器KindEditor
一路走来,DJango也用了挺久了,自己也做了一些基于Django的小项目,具体可看github,但是Django默认的admin后台编辑文本框实在是太丑了,而且单一,其实在很久之前就想写这篇文章了,但是由于种种原因拖延到了现在,终于下定了决心来写,现在时间是23:49。
2017-03-27 00:17:53 9807 5
原创 Elasticsearch 集群优化篇
对于集群的监控和优化是很重要的一部分,如果想持久维护集群,单单靠增加物理内存,cpu,硬盘是不够的,必须通过一些方法来进行优化。
2017-03-18 15:15:26 15961
原创 07+. Django用户登录验证系统和登录注销
一直以来对Django的用户权限登录保护模棱两可,最近由于在做一个django的项目,其中涉及到用户的权限登录保护,所以算是有些清楚了,总结下来,给还在模棱两可的你阅读。
2017-03-08 00:12:41 11833
原创 Node.js历险记之express框架入门篇
Express 是一种保持最低程度规模的灵活 Node.js Web 应用程序框架,为 Web 和移动应用程序提供一组强大的功能。
2017-03-06 21:11:30 3717
原创 Node.js历险记之剑未配好,已出江湖
js是脚本语言,脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS,浏览器充当了解析器的角色。而对于需要独立运行的JS,NodeJS就是一个解析器。
2017-03-05 13:15:19 2798
原创 Elasticsearch5.2.1集群搭建,动态加入节点,并添加监控诊断插件
之前写过一篇文章是如何使用一个IP搭建ES集群——Docker如你所愿,在该篇文章中说明了Elasticsearch集群的单播和多播的概念和差别,以及在生产环境中的利与弊。其实在里边也写了怎么搭建集群,但是整个流程走下来是有很多bug的,那么这篇文章就好好聊一下如何搭建一个完
2017-03-02 23:35:04 33749 7
原创 Sqoop1和Sqoop2的刨析对比
Sqoop是一款开源的工具,主要用于在Hadoop和传统的数据库(MySQL、postgresql等)进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。 Sqoop目
2017-02-18 13:56:05 23796 4
原创 关于docker容器网络的一些理解
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer参考资料1:容器网络那些事儿 2:使用 Docker 容器网络 3:Docker 1.9的新网络特性,以及Overlay
2017-02-04 18:22:20 11046 3
原创 linux SSH log 中不带年份问题的实战解决方法,绝对可行!
转载请注明出处:http://www.voidcn.com/blog/gamer_gyt/ 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer S打开微信扫一扫,关注微信公众号【码农故事多】 玩linux的人都知道他有个syslog这个东西,新版的linux操作系统中升级为了rsyslog,具体的
2017-01-07 01:32:42 7548
原创 异常检测之浅谈入侵检测
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer前言由于业务关系,最近一段时间一直在关注入侵检测技术方面的知识,经过了最近一天的学习与调研,在大体上还是有了一定的了解与研究
2016-12-26 00:12:42 29094 2
原创 Python写的CSDN信息推送小助手
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer前言这几天突然萌生了一个想法:自己写个python程序,定时查询一下自己的CSDN博客的一些信息,并以邮件的形式推送给自己,
2016-12-23 00:44:37 7227 8
word2vec.zip
2019-11-13
NLP汉语自然语言处理原理与实战
2018-06-15
gephi-0.9.1-windows.exe
2017-02-14
mysql-connector-java-5.0.4-bin.jar
2017-02-14
commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar
2016-07-28
从疝气病症预测病马的死亡率的测试数据集
2016-04-25
十大算法之线性查找算法
2015-07-29
securboot未完全配置消除补丁
2014-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人