自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Thinkgamer博客

处女作:推荐系统开发实战,公众号:搜索与推荐Wiki

  • 博客(375)
  • 资源 (19)
  • 收藏
  • 关注

原创 TensorFlow安装、变量学习和常用操作

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer安装、入门环境说明:deepin 15.4python 3.5.4tensorflow...

2018-04-17 00:55:28 1442

原创 机器学习中的AUC理解

转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 最近在做GBDT模型,里边用到胡模型评价方法就是AUC,刚好趁此机会,好好学习一下。混淆矩阵(Confusion matrix)混淆矩阵是理解大多数评价指...

2018-04-15 02:51:19 5602 1

原创 梯度提升决策树-GBDT(Gradient Boosting Decision Tree)

转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 研究GBDT的背景是业务中使用到了该模型,用于做推荐场景,当然这里就引出了GBDT的一个应用场景-回归,他的另外一个应用场景便是分类,接下来我会从以下几个方面去学习...

2018-04-12 00:43:51 7636

原创 Softmax Regression

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上...

2018-03-29 08:19:33 1911

原创 推荐系统的一些思考

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 推荐系统一直以来都是电商网站必不可少的一项,在提升用户转化,增加GMV方面可谓功不可...

2018-03-26 05:55:06 2213

原创 Scala 解析 XML

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 在使用Spark时,有时候主函数入口参数过多的时候,会特别复杂,这个时候我们可以将相应的参数写在xml文件中,

2018-02-04 16:45:36 4924

原创 Spark求统计量的两种方法

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer Spark对于统计量中的最大值,最小值,平均值和方差(均值)的计算都提供了封装,这里小编知道两种计算方法,整理

2018-02-04 16:44:07 5198

原创 记一次百G数据的聚类算法实施过程

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 如题,记一次百G数据的聚类算法实施过程,用的技术都不难,spark和kmeans,我想你会认为这没有什么难度,

2018-01-26 21:20:45 2022 2

原创 Spark多路径输出和二次排序

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 在实际应用场景中,我们对于Spark往往有各式各样的需求,比如说想MR中的二次排序,Top N,多路劲输出等。

2018-01-25 00:24:31 2202

原创 Spark提交参数说明和常见优化

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 最近在搞一个价格分类模型,虽说是分类,用的是kmeans算法,求出聚类中心,对每个价格进行级别定级。虽然说起

2018-01-23 00:40:48 15026 2

原创 用大把的时间仿徨,却用几个瞬间成长

人总要在特定的阶段去完成特定的事情,然后转身告诉自己,继续往前。

2017-12-31 11:02:03 1560

原创 梯度算法之批量梯度下降,随机梯度下降和小批量梯度下降

在机器学习领域,体梯度下降算法分为三种- 批量梯度下降算法(BGD,Batch gradient descent algorithm)- 随机梯度下降算法(SGD,Stochastic gradient descent algorithm)- 小批量梯度下降算法(MBGD,Mini-batch gradient descent algorithm)

2017-12-14 19:23:10 4588

原创 梯度算法之梯度上升和梯度下降

第一次看见随机梯度上升算法是看《机器学习实战》这本书,当时也是一知半解,只是大概知道和高等数学中的函数求导有一定的关系。下边我们就好好研究下随机梯度上升(下降)和梯度上升(下降)。

2017-12-13 22:48:02 16836 3

原创 异常检测之指数平滑(利用elasticsearch来实现)

指数平滑法是一种特殊的加权平均法,加权的特点是对离预测值较近的历史数据给予较大的权数,对离预测期较远的历史数据给予较小的权数,权数由近到远按指数规律递减,所以,这种预测方法被称为指数平滑法。它可分为一次指数平滑法、二次指数平滑法及更高次指数平滑法。

2017-11-20 17:17:44 4972

原创 回归分析之Sklearn实现电力预测

使用pandas读取数据,加载到sklearn的线性回归函数中,进行模型训练,预测,并对最终结果进行画图展示。

2017-11-07 13:39:13 6739 1

原创 回归分析之线性回归(N元线性回归)

在上一篇文章中我们介绍了 回归分析之理论篇,在其中我们有聊到线性回归和非线性回归,包括广义线性回归,这一篇文章我们来聊下回归分析中的线性回归。

2017-09-29 16:45:01 3081

原创 几种距离计算公式在数据挖掘中的应用场景分析

本文涉及以下几种距离计算公式的分析,参考资料为《面向程序员的数据挖掘指南》- 曼哈顿距离- 欧几里得距离- 闵可夫斯基距离- 皮尔逊相关系数- 余弦相似度

2017-09-20 10:23:44 8145

原创 回归分析之理论篇

2015年的机器学习博客其实都是看《机器学习实战》这本书时学到的,说实话当时也是知其然,不知其所以然,以至于对其理解不深刻,好多细节和理论知识都搞的是乱七八糟,自从工作之后再去看一个算法,思考的比之前多了点,查看资料也比之前多了点,生怕理解错误,影响其他人,当然在理解的程度上还是不够深刻,这也是一个学习的过程吧,记录一下,欢迎指正。

2017-09-17 08:10:07 4465

原创 数据归一化和其在sklearn中的处理

数据归一化(标准化)处理是数据挖掘的一项基础工作,不同评价指往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价

2017-09-01 11:33:48 23941

原创 异常检测之正态分布

在数据挖掘中,异常检测(英语:anomaly detection)对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的

2017-08-29 19:27:45 15636 1

原创 K-means 聚类算法的理解与案例实战

工作之后,发现对算法和技术的理解和上学时学习是不一样的,当时也整理了几篇关于k-means聚类的文章,但是现在看起来比较苍白和空洞,于是打算带着重新学习的态度对以往学习过或者见过的一些机器学习算法进行温习和总结,写的不足之处还望路过大神指点一二。

2017-07-25 23:41:40 15925 31

原创 MachingLearning中的距离和相似性计算以及python实现

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer前言写这篇文章的目的不是说摘抄网上其他人的总结,刚才最近在看这方面的东西,为了让自己能够实际的去感受下...

2017-07-16 12:14:54 8761 6

原创 Scrapy 爬取百度贴吧指定帖子的发帖人和回帖人

该篇文章将是Scrapy爬虫系列的开篇,随后会不定时更新该框架方面的内容和知识,在scrapy之前写爬虫主要用的BeautifulSoup, request 和urllib,但随着使用程度的加深,慢慢意识到功能和效率都是不够的,那么便重新接触了Scrapy框架,并尝试着写出一些有趣的东西。

2017-07-13 09:26:38 5509

原创 推荐算法的回顾总结

之前看过一段时间协同过滤的推荐算法,当时理解并不深刻,对于其浅显的理解是从海量数据中挖掘出小部分与你品味相同的用户,协同过滤分为基于用户的和基于物品的。

2017-07-05 01:13:18 9619 4

原创 一切的闹闹哄哄,只是他在水帘洞躲避风沙那晚做的一个梦

送同学走之后,我在路边默默的站了有五分钟,突然觉得我无处可去,有一种深入骨髓的悲哀和无奈,然后我就想起了一个命题,“如今的你,何去何从!”我不知道为什么会突然想到这样一个命题,或许是我们每个人都是至尊宝吧。其实每个人对《大话》的理解都是有所不同的,同样的人在不同的时期认识也会有偏差,就好比我第一次看的时候,笑得腹背抽筋,呲牙咧嘴,第二次看的时候,笑得少了,想的多了,过后便什么感觉也没有了,第三次看得时候,忽然觉得不知

2017-04-16 01:03:58 3008

原创 使用filebeat进行数据加密传输和区别不同的日志源

数据在远程传输过程中,可能被劫持和获取,继而造成的后果是数据信息泄露,那么如何有效的进行数据传输呢,在ELK Stack中filebeat 提供了这样的一个解决方案,其不仅可以监听指定文件夹的数据,还可以对数据进行TLS 双向认证加密,从而保证数据传输过程中的可靠性。

2017-04-06 21:40:19 8372 2

原创 __str__ returned non-string (type int)

这个问题是我在做这个项目【<a href="https://github.com/Thinkgamer/CSMarket">点击查看</a>】时遇到的,主要是因为以前在使用django的models时,在models的__str__(self) 函数时,默认返回的字段都是CharField类型的,而在这次返回了一个IntegerField类型导致出现了题目中的错误。

2017-04-06 00:11:43 8072

原创 Logstash:从grok到5.X版本的dissect

grok 作为 Logstash 最广为人知的插件,在性能和资源损耗方面同样也广为诟病。为了应对这个情况,同时也考虑到大多数时候,日志格式并没有那么复杂,Logstash 开发团队在 5.0 版新添加了另一个解析字段的插件:dissect。当日志格式有比较简明的分隔标志位,而且重复性较大的时候,我们可以使用 dissect 插件更快的完成解析工作

2017-03-29 01:08:22 6043

原创 一柱香,一页文带你走进Logstash的世界

Logstash在ELK这个技术栈中占据着重要的位置,所有的数据都要经过logstash的解析,才能格式化的存入ES中,那么对于Logstash的学习也是十分重要的,今天这篇文章我们将看一下logstash的基本知识,后续会有更多细节性的文章和使用案例文章,请持续关注博主和ELK Stack 从入门到放弃专栏

2017-03-29 00:55:09 9285

原创 11. Django 引入富文本编辑器KindEditor

一路走来,DJango也用了挺久了,自己也做了一些基于Django的小项目,具体可看github,但是Django默认的admin后台编辑文本框实在是太丑了,而且单一,其实在很久之前就想写这篇文章了,但是由于种种原因拖延到了现在,终于下定了决心来写,现在时间是23:49。

2017-03-27 00:17:53 9807 5

原创 Elasticsearch 集群优化篇

对于集群的监控和优化是很重要的一部分,如果想持久维护集群,单单靠增加物理内存,cpu,硬盘是不够的,必须通过一些方法来进行优化。

2017-03-18 15:15:26 15961

原创 07+. Django用户登录验证系统和登录注销

一直以来对Django的用户权限登录保护模棱两可,最近由于在做一个django的项目,其中涉及到用户的权限登录保护,所以算是有些清楚了,总结下来,给还在模棱两可的你阅读。

2017-03-08 00:12:41 11833

原创 Node.js历险记之express框架入门篇

Express 是一种保持最低程度规模的灵活 Node.js Web 应用程序框架,为 Web 和移动应用程序提供一组强大的功能。

2017-03-06 21:11:30 3717

原创 Node.js历险记之剑未配好,已出江湖

js是脚本语言,脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS,浏览器充当了解析器的角色。而对于需要独立运行的JS,NodeJS就是一个解析器。

2017-03-05 13:15:19 2798

原创 Elasticsearch5.2.1集群搭建,动态加入节点,并添加监控诊断插件

之前写过一篇文章是如何使用一个IP搭建ES集群——Docker如你所愿,在该篇文章中说明了Elasticsearch集群的单播和多播的概念和差别,以及在生产环境中的利与弊。其实在里边也写了怎么搭建集群,但是整个流程走下来是有很多bug的,那么这篇文章就好好聊一下如何搭建一个完

2017-03-02 23:35:04 33749 7

原创 Sqoop1和Sqoop2的刨析对比

Sqoop是一款开源的工具,主要用于在Hadoop和传统的数据库(MySQL、postgresql等)进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。 Sqoop目

2017-02-18 13:56:05 23796 4

原创 关于docker容器网络的一些理解

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer参考资料1:容器网络那些事儿 2:使用 Docker 容器网络 3:Docker 1.9的新网络特性,以及Overlay

2017-02-04 18:22:20 11046 3

原创 linux SSH log 中不带年份问题的实战解决方法,绝对可行!

转载请注明出处:http://www.voidcn.com/blog/gamer_gyt/ 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer S打开微信扫一扫,关注微信公众号【码农故事多】 玩linux的人都知道他有个syslog这个东西,新版的linux操作系统中升级为了rsyslog,具体的

2017-01-07 01:32:42 7548

原创 异常检测之浅谈入侵检测

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer前言由于业务关系,最近一段时间一直在关注入侵检测技术方面的知识,经过了最近一天的学习与调研,在大体上还是有了一定的了解与研究

2016-12-26 00:12:42 29094 2

原创 Python写的CSDN信息推送小助手

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer前言这几天突然萌生了一个想法:自己写个python程序,定时查询一下自己的CSDN博客的一些信息,并以邮件的形式推送给自己,

2016-12-23 00:44:37 7227 8

grafana-6.3.3-1 rpm安装包.zip

grafana-6.3.3-1.x86_64.rpm 安装包,

2020-04-09

word2vec.zip

word2vec 官方资源未修改版和malloc函数替换版,官方源码 需要科学上网才能获取,这里进行提供,同时mac os系统下需要修改malloc函数方可使用,这里也提供一份修改后的

2019-11-13

NLP汉语自然语言处理原理与实战

自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能”,提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期,1966年的ALPAC报告发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息,有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?

2018-06-15

一种人脸表情分类的新方法_Manhattan距离

一种人脸表情分类的新方法_Manhattan距离_李俊华.pdf

2017-07-15

gephi-0.9.1-windows.exe

2017-02-14

mysql-connector-java-5.0.4-bin.jar

2017-02-14

commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar

commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar

2016-07-28

delicious.dat

经过预处理的。数据格式 [ USER_ID , URL_ID , Tags ] 。

2016-06-16

kosarak.dat

FP_Tree算法构建新闻点击流的数据集

2016-05-09

从疝气病症预测病马的死亡率的测试数据集

2016-04-25

从疝气病症预测病马的死亡率的训练数据集

从疝气病症预测病马的死亡率的训练数据集,机器学习实战第五章logistic回归实例数据

2016-04-25

hadoop-eclipse-plugin-2.6.0.jar

hadoop-eclipse-plugin-2.6.0.jar

2015-08-02

lucene4.3.0+IK Analyzer2012FF

lucene4.3.0+IK Analyzer2012FF

2015-07-31

IKAnalyzer_all_jar

IKAnalyzer_all_jar,适用于中文分词(Java和mapreduce)

2015-07-31

十大算法之线性查找算法

算法步骤: 1. 将n个元素每5个一组,分成n/5(上界)组。 2. 取出每一组的中位数,任意排序方法,比如插入排序。 3. 递归的调用selection算法查找上一步中所有中位数的中位数,设为x,偶数个中位数的情况下设定为选取中间小的一个。 4. 用x来分割数组,设小于等于x的个数为k,大于x的个数即为n-k。 5. 若i==k,返回x;若ik,在大于x的元素中递归查找第i-k小的元素。 终止条件:n=1时,返回的即是i小元素。

2015-07-29

高精度的加减乘除

高精度对于初学者来说并不是容易的,所以小编在这里这里整理了高精度的加减乘除运算,在一个程序中实现,希望对各位童鞋有所帮助

2014-08-23

securboot未完全配置消除补丁

在我们新安装windows系统后在桌面右下角会出现securboot未完全配置消除补丁这些字,若在BIOS中设置的话对电脑某些功能有影响(如电脑装有双系统,另一个系统进不去,或者电脑不能正常开机),此时就需要这样一个补丁来解决这个问题

2014-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除