[置顶] 别了青春与流年,遇见下一个自己

【2016总结】如果说岁月是年轮,我们便是推行者,如果说成长是一场华丽的蜕变,我们便是领舞者。一路走来,太多不易,告别青春的年少轻狂,我们成了岁月里被磨平的棱角,静静的守在属于自己的一亩三分地...
阅读(4616) 评论(16)

[置顶] 《hadoop进阶》web日志系统 KPI指标的分析与实现

1:Web日志分析系统概述 2:需求分析:日志提取预处理,KPI指标设计,存储与展现 3:算法模型:Hadoop并行算法 4:架构设计:用Maven构建hadoop项目 5:程序实现:MR2V程序实现 6:结果可视化 一:Web日志分析系统概述 Web日志由Web]服务器产生,可能是Nginx,Apache,Tomcat等,从Web日志中我们可以提取到很多有用的信息,比如说网...
阅读(10092) 评论(3)

[置顶] 《机器学习实战》Logistic回归算法(1)

============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现 另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言 =...
阅读(8515) 评论(1)

[置顶] Mahout学习系列之推荐算法

参考:从源代码剖析Mahout推荐引擎    前言:Mahout框架集成了大量的常用的机器学习算法,且都支持在Hadoop分布式环境下运行,很大程度上节约了数据处理的时间成本,其中的推荐算法引擎有cf.taste包实现,它提供了一套完整的推荐算法工具库,同时规范了数据结构,并标准了程序开发过程。 1:Mahout推荐算法介绍 2:单机内存算法实现 3:基于hadoop分布式...
阅读(3309) 评论(0)

[置顶] Scikit Learn: 在python中机器学习

Warning 警告:有些没能理解的句子,我以自己的理解意译。 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Gael Varoquaux 先决条件 Numpy, Scipy IPython matplotlib scikit-learn 目录 ...
阅读(2683) 评论(0)

[置顶] Python开发安装的一些常用模块

一、BeautifulSoup模块 关于BeautifulSoup模块主要用于规范化网页源代码,利用其一些特定的解析标签函数来分析网页,的得到一些特定的内容,用起来方便简单容易入门,但仍然有一些弊端,比如说对于网页中含有js代码的就不能有效读取与分析,所以常结合正则表达式来进行使用,效率特别好 二、Scrapy + Selenium 模块 这两个模块结合起来使用常用于解析javascript...
阅读(5011) 评论(3)

MachingLearning中的距离和相似性计算以及python实现

在机器学习中,经常要用到距离和相似性的计算公式,我么要常计算个体之间的差异大小,继而评价个人之间的差异性和相似性,最常见的就是数据分析中的相关分析,数据挖掘中的分类和聚类算法。如利用k-means进行聚类时,判断个体所属的类别,要利用距离计算公式计算个体到簇心的距离,如利用KNN进行分类时,计算个体与已知类别之间的相似性,从而判断个体所属的类别等。...
阅读(1211) 评论(2)

Scrapy 爬取百度贴吧指定帖子的发帖人和回帖人

该篇文章将是Scrapy爬虫系列的开篇,随后会不定时更新该框架方面的内容和知识,在scrapy之前写爬虫主要用的BeautifulSoup, request 和urllib,但随着使用程度的加深,慢慢意识到功能和效率都是不够的,那么便重新接触了Scrapy框架,并尝试着写出一些有趣的东西。...
阅读(997) 评论(0)

推荐算法的回顾总结

之前看过一段时间协同过滤的推荐算法,当时理解并不深刻,对于其浅显的理解是从海量数据中挖掘出小部分与你品味相同的用户,协同过滤分为基于用户的和基于物品的。...
阅读(2288) 评论(4)

一切的闹闹哄哄,只是他在水帘洞躲避风沙那晚做的一个梦

送同学走之后,我在路边默默的站了有五分钟,突然觉得我无处可去,有一种深入骨髓的悲哀和无奈,然后我就想起了一个命题,“如今的你,何去何从!”我不知道为什么会突然想到这样一个命题,或许是我们每个人都是至尊宝吧。其实每个人对《大话》的理解都是有所不同的,同样的人在不同的时期认识也会有偏差,就好比我第一次看的时候,笑得腹背抽筋,呲牙咧嘴,第二次看的时候,笑得少了,想的多了,过后便什么感觉也没有了,第三次看得时候,忽然觉得不知...
阅读(583) 评论(0)

使用filebeat进行数据加密传输和区别不同的日志源

数据在远程传输过程中,可能被劫持和获取,继而造成的后果是数据信息泄露,那么如何有效的进行数据传输呢,在ELK Stack中filebeat 提供了这样的一个解决方案,其不仅可以监听指定文件夹的数据,还可以对数据进行TLS 双向认证加密,从而保证数据传输过程中的可靠性。...
阅读(1049) 评论(0)

__str__ returned non-string (type int)

这个问题是我在做这个项目【点击查看】时遇到的,主要是因为以前在使用django的models时,在models的__str__(self) 函数时,默认返回的字段都是CharField类型的,而在这次返回了一个IntegerField类型导致出现了题目中的错误。...
阅读(691) 评论(0)

Logstash:从grok到5.X版本的dissect

grok 作为 Logstash 最广为人知的插件,在性能和资源损耗方面同样也广为诟病。为了应对这个情况,同时也考虑到大多数时候,日志格式并没有那么复杂,Logstash 开发团队在 5.0 版新添加了另一个解析字段的插件:dissect。当日志格式有比较简明的分隔标志位,而且重复性较大的时候,我们可以使用 dissect 插件更快的完成解析工作...
阅读(1244) 评论(0)

一柱香,一页文带你走进Logstash的世界

Logstash在ELK这个技术栈中占据着重要的位置,所有的数据都要经过logstash的解析,才能格式化的存入ES中,那么对于Logstash的学习也是十分重要的,今天这篇文章我们将看一下logstash的基本知识,后续会有更多细节性的文章和使用案例文章,请持续关注博主和ELK Stack 从入门到放弃专栏...
阅读(1486) 评论(0)

11. Django 引入富文本编辑器KindEditor

一路走来,DJango也用了挺久了,自己也做了一些基于Django的小项目,具体可看github,但是Django默认的admin后台编辑文本框实在是太丑了,而且单一,其实在很久之前就想写这篇文章了,但是由于种种原因拖延到了现在,终于下定了决心来写,现在时间是23:49。...
阅读(1160) 评论(0)

Elasticsearch 集群优化篇

对于集群的监控和优化是很重要的一部分,如果想持久维护集群,单单靠增加物理内存,cpu,硬盘是不够的,必须通过一些方法来进行优化。...
阅读(1655) 评论(0)

07+. Django用户登录验证系统和登录注销

一直以来对Django的用户权限登录保护模棱两可,最近由于在做一个django的项目,其中涉及到用户的权限登录保护,所以算是有些清楚了,总结下来,给还在模棱两可的你阅读。...
阅读(1172) 评论(0)

Node.js历险记之express框架入门篇

Express 是一种保持最低程度规模的灵活 Node.js Web 应用程序框架,为 Web 和移动应用程序提供一组强大的功能。...
阅读(794) 评论(0)

Node.js历险记之剑未配好,已出江湖

js是脚本语言,脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS,浏览器充当了解析器的角色。而对于需要独立运行的JS,NodeJS就是一个解析器。...
阅读(537) 评论(0)

Elasticsearch5.2.1集群搭建,动态加入节点,并添加监控诊断插件

之前写过一篇文章是如何使用一个IP搭建ES集群——Docker如你所愿,在该篇文章中说明了Elasticsearch集群的单播和多播的概念和差别,以及在生产环境中的利与弊。其实在里边也写了怎么搭建集群,但是整个流程走下来是有很多bug的,那么这篇文章就好好聊一下如何搭建一个完...
阅读(2719) 评论(4)

重拾初心——Sqoop1和Sqoop2的刨析对比

Sqoop是一款开源的工具,主要用于在Hadoop和传统的数据库(MySQL、postgresql等)进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。 Sqoop目...
阅读(3067) 评论(3)

关于docker容器网络的一些理解

突然发现好久没有更新博客了,像我这种频繁发表博客的人竟然也会放慢了更新的速度,其实不是说自己不去写,不去更新,只是不愿意去将就,去发表一些让别人看了没有多大帮助的文章,作为2017年的开篇博客,我想和你们一起学习下Docker容器网络的知识,首先声明,以下内容大部分都是来源网络,按照我对docker网络的理解,整理的一篇文章,一起学习。...
阅读(2244) 评论(0)

如何解决linux SSH log 中不带年份的问题

转载请注明出处:http://www.voidcn.com/blog/gamer_gyt/ 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer S打开微信扫一扫,关注微信公众号【码农故事多】 玩linux的人都知道他有个syslog这个东西,新版的linux操作系统中升级为了rsyslog,具体的...
阅读(3783) 评论(0)

浅谈入侵检测技术

由于业务关系,最近一段时间一直在关注入侵检测技术方面的知识,经过了最近一天的学习与调研,在大体上还是有了一定的了解与研究,下面就分享一下我得学习成果,当然大部分知识都是从网上进行收集和整理的,当然加上了自己的一些想法...
阅读(1288) 评论(0)

Python写的CSDN信息推送小助手

这几天突然萌生了一个想法:自己写个python程序,定时查询一下自己的CSDN博客的一些信息,并以邮件的形式推送给自己,那么废话不多说,现在已经把基本功能给实现了,每天可以定时发送访问量,积分,排名,同时会比较前一天的数据,形成对比,呈现给自己,这样就能一目了然的看到自己每天博客的PV增加数目了,如果你感兴趣,拿去玩吧...
阅读(2870) 评论(2)
234条 共12页1 2 3 4 5 ... 下一页 尾页
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:636159次
    • 积分:8376
    • 等级:
    • 排名:第2255名
    • 原创:208篇
    • 转载:24篇
    • 译文:2篇
    • 评论:221条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论