[置顶] 别了青春与流年,遇见下一个自己

【2016总结】如果说岁月是年轮,我们便是推行者,如果说成长是一场华丽的蜕变,我们便是领舞者。一路走来,太多不易,告别青春的年少轻狂,我们成了岁月里被磨平的棱角,静静的守在属于自己的一亩三分地...
阅读(5514) 评论(17)

[置顶] 《推荐系统》基于标签的用户推荐系统

1:联系用户兴趣和物品的方式 2:标签系统的典型代表 3:用户如何打标签 4:基于标签的推荐系统 5:算法的改进 源代码查看地址:github查看 一:联系用户兴趣和物品的方式     推荐系统的目的是联系用户的兴趣和物品,这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。                                           1:利用用户喜欢过的物品,给用户推荐与他喜欢过的物品...
阅读(15505) 评论(7)

[置顶] 《推荐系统》基于用户和Item的协同过滤算法的分析与实现(Python)

1:协同过滤算法简介 2:协同过滤算法的核心 3:协同过滤算法的应用方式 4:基于用户的协同过滤算法实现 5:基于物品的协同过滤算法实现 一:协同过滤算法简介     关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时...
阅读(20864) 评论(28)

[置顶] 《hadoop进阶》web日志系统 KPI指标的分析与实现

1:Web日志分析系统概述 2:需求分析:日志提取预处理,KPI指标设计,存储与展现 3:算法模型:Hadoop并行算法 4:架构设计:用Maven构建hadoop项目 5:程序实现:MR2V程序实现 6:结果可视化 一:Web日志分析系统概述 Web日志由Web]服务器产生,可能是Nginx,Apache,Tomcat等,从Web日志中我们可以提取到很多有用的信息,比如说网...
阅读(10892) 评论(3)

[置顶] 《机器学习实战》Logistic回归算法(1)

============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现 另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言 =...
阅读(11446) 评论(1)

[置顶] Mahout学习系列之推荐算法

参考:从源代码剖析Mahout推荐引擎    前言:Mahout框架集成了大量的常用的机器学习算法,且都支持在Hadoop分布式环境下运行,很大程度上节约了数据处理的时间成本,其中的推荐算法引擎有cf.taste包实现,它提供了一套完整的推荐算法工具库,同时规范了数据结构,并标准了程序开发过程。 1:Mahout推荐算法介绍 2:单机内存算法实现 3:基于hadoop分布式...
阅读(4285) 评论(0)

异常检测之指数平滑(利用elasticsearch来实现)

指数平滑法是一种特殊的加权平均法,加权的特点是对离预测值较近的历史数据给予较大的权数,对离预测期较远的历史数据给予较小的权数,权数由近到远按指数规律递减,所以,这种预测方法被称为指数平滑法。它可分为一次指数平滑法、二次指数平滑法及更高次指数平滑法。...
阅读(68) 评论(0)

回归分析之Sklearn实现电力预测

使用pandas读取数据,加载到sklearn的线性回归函数中,进行模型训练,预测,并对最终结果进行画图展示。...
阅读(93) 评论(0)

回归分析之线性回归(N元线性回归)

在上一篇文章中我们介绍了 回归分析之理论篇,在其中我们有聊到线性回归和非线性回归,包括广义线性回归,这一篇文章我们来聊下回归分析中的线性回归。...
阅读(175) 评论(0)

几种距离计算公式在数据挖掘中的应用场景分析

本文涉及以下几种距离计算公式的分析,参考资料为《面向程序员的数据挖掘指南》 - 曼哈顿距离 - 欧几里得距离 - 闵可夫斯基距离 - 皮尔逊相关系数 - 余弦相似度...
阅读(169) 评论(0)

回归分析之理论篇

2015年的机器学习博客其实都是看《机器学习实战》这本书时学到的,说实话当时也是知其然,不知其所以然,以至于对其理解不深刻,好多细节和理论知识都搞的是乱七八糟,自从工作之后再去看一个算法,思考的比之前多了点,查看资料也比之前多了点,生怕理解错误,影响其他人,当然在理解的程度上还是不够深刻,这也是一个学习的过程吧,记录一下,欢迎指正。...
阅读(250) 评论(0)

数据归一化和其在sklearn中的处理

数据归一化(标准化)处理是数据挖掘的一项基础工作,不同评价指往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价...
阅读(375) 评论(0)

异常检测之正态分布

在数据挖掘中,异常检测(英语:anomaly detection)对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。 特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的...
阅读(525) 评论(0)

K-means 聚类算法的理解与案例实战

工作之后,发现对算法和技术的理解和上学时学习是不一样的,当时也整理了几篇关于k-means聚类的文章,但是现在看起来比较苍白和空洞,于是打算带着重新学习的态度对以往学习过或者见过的一些机器学习算法进行温习和总结,写的不足之处还望路过大神指点一二。...
阅读(2625) 评论(16)

MachingLearning中的距离和相似性计算以及python实现

在机器学习中,经常要用到距离和相似性的计算公式,我么要常计算个体之间的差异大小,继而评价个人之间的差异性和相似性,最常见的就是数据分析中的相关分析,数据挖掘中的分类和聚类算法。如利用k-means进行聚类时,判断个体所属的类别,要利用距离计算公式计算个体到簇心的距离,如利用KNN进行分类时,计算个体与已知类别之间的相似性,从而判断个体所属的类别等。...
阅读(2394) 评论(3)

Scrapy 爬取百度贴吧指定帖子的发帖人和回帖人

该篇文章将是Scrapy爬虫系列的开篇,随后会不定时更新该框架方面的内容和知识,在scrapy之前写爬虫主要用的BeautifulSoup, request 和urllib,但随着使用程度的加深,慢慢意识到功能和效率都是不够的,那么便重新接触了Scrapy框架,并尝试着写出一些有趣的东西。...
阅读(2162) 评论(0)

推荐算法的回顾总结

之前看过一段时间协同过滤的推荐算法,当时理解并不深刻,对于其浅显的理解是从海量数据中挖掘出小部分与你品味相同的用户,协同过滤分为基于用户的和基于物品的。...
阅读(3317) 评论(4)

一切的闹闹哄哄,只是他在水帘洞躲避风沙那晚做的一个梦

送同学走之后,我在路边默默的站了有五分钟,突然觉得我无处可去,有一种深入骨髓的悲哀和无奈,然后我就想起了一个命题,“如今的你,何去何从!”我不知道为什么会突然想到这样一个命题,或许是我们每个人都是至尊宝吧。其实每个人对《大话》的理解都是有所不同的,同样的人在不同的时期认识也会有偏差,就好比我第一次看的时候,笑得腹背抽筋,呲牙咧嘴,第二次看的时候,笑得少了,想的多了,过后便什么感觉也没有了,第三次看得时候,忽然觉得不知...
阅读(1109) 评论(0)

使用filebeat进行数据加密传输和区别不同的日志源

数据在远程传输过程中,可能被劫持和获取,继而造成的后果是数据信息泄露,那么如何有效的进行数据传输呢,在ELK Stack中filebeat 提供了这样的一个解决方案,其不仅可以监听指定文件夹的数据,还可以对数据进行TLS 双向认证加密,从而保证数据传输过程中的可靠性。...
阅读(2662) 评论(1)

__str__ returned non-string (type int)

这个问题是我在做这个项目【点击查看】时遇到的,主要是因为以前在使用django的models时,在models的__str__(self) 函数时,默认返回的字段都是CharField类型的,而在这次返回了一个IntegerField类型导致出现了题目中的错误。...
阅读(1231) 评论(0)

Logstash:从grok到5.X版本的dissect

grok 作为 Logstash 最广为人知的插件,在性能和资源损耗方面同样也广为诟病。为了应对这个情况,同时也考虑到大多数时候,日志格式并没有那么复杂,Logstash 开发团队在 5.0 版新添加了另一个解析字段的插件:dissect。当日志格式有比较简明的分隔标志位,而且重复性较大的时候,我们可以使用 dissect 插件更快的完成解析工作...
阅读(2281) 评论(0)

一柱香,一页文带你走进Logstash的世界

Logstash在ELK这个技术栈中占据着重要的位置,所有的数据都要经过logstash的解析,才能格式化的存入ES中,那么对于Logstash的学习也是十分重要的,今天这篇文章我们将看一下logstash的基本知识,后续会有更多细节性的文章和使用案例文章,请持续关注博主和ELK Stack 从入门到放弃专栏...
阅读(3000) 评论(0)

11. Django 引入富文本编辑器KindEditor

一路走来,DJango也用了挺久了,自己也做了一些基于Django的小项目,具体可看github,但是Django默认的admin后台编辑文本框实在是太丑了,而且单一,其实在很久之前就想写这篇文章了,但是由于种种原因拖延到了现在,终于下定了决心来写,现在时间是23:49。...
阅读(2854) 评论(0)

Elasticsearch 集群优化篇

对于集群的监控和优化是很重要的一部分,如果想持久维护集群,单单靠增加物理内存,cpu,硬盘是不够的,必须通过一些方法来进行优化。...
阅读(3418) 评论(0)

07+. Django用户登录验证系统和登录注销

一直以来对Django的用户权限登录保护模棱两可,最近由于在做一个django的项目,其中涉及到用户的权限登录保护,所以算是有些清楚了,总结下来,给还在模棱两可的你阅读。...
阅读(3073) 评论(0)

Node.js历险记之express框架入门篇

Express 是一种保持最低程度规模的灵活 Node.js Web 应用程序框架,为 Web 和移动应用程序提供一组强大的功能。...
阅读(1446) 评论(0)
242条 共13页1 2 3 4 5 ... 下一页 尾页
    Thinkgamer微博
    微信公众号【码农故事多】
    个人资料
    • 访问:873263次
    • 积分:10380
    • 等级:
    • 排名:第1802名
    • 原创:218篇
    • 转载:22篇
    • 译文:2篇
    • 评论:294条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论