自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

乌云压顶是吧

很高兴不认识你

原创 利用Gitalk给Vuepress搭建的blog增加评论功能

Using Gitalk support comment for Vuepress 这两天折腾了一下comment功能 自己写花的代价肯定更大 所以选择用组件 目前用的比较多的有Gitalk Gitment Gitment因为实践之后不能评论(可能是很久没人维护了) 于是最后选择更实(hao)用(...

2018-10-25 12:39:15

阅读数 1126

评论数 0

原创 从高可用IP代理池到千万级网易云音乐数据爬取的实现

千万级网易云音乐数据爬取实现

2018-10-25 12:32:56

阅读数 176

评论数 0

原创 如何优雅的理解PageRank

博客引流 终于Tex调好了 刚好最近又多次提及PageRank 于是~ 目测这一系列 有个两三篇blog PageRank 是 由佩奇(Larry Page)等人提出 的 Google 最为有名的技术之一 我 乔治 甘拜下风 PageRank 是一种基于随机游走 的 评价网站权值的算...

2018-10-31 01:24:38

阅读数 2430

评论数 0

原创 brew | brew cask | yum | apt-get

博客引流 用过Mac的肯定 或多或少的 用过 brew这个命令 在我之前的印象里 这个命令就好像 Ubuntu里的apt-get Centos里的yum 都是属于那种Linux下包管理器 那他们之间有什么区别呢? 先下结论: 源码包安装: brew 二进制包安装: yun | apt-get 源码...

2018-10-26 16:41:21

阅读数 94

评论数 0

原创 Frequent Pattern

博客引流 作为Data mining 的第一篇 先来讲讲频繁模式 频繁模式是推荐算法的基础 主要解决的是从一堆数据中挖掘出频繁的组合模式 举个简单的例子 可能买了Mac的人,过几天会去买贴膜 可能买考研英语书的人,过几天会去买考研数学书 如何在大量数据中找到可能相关的几个问题,称之为Frequen...

2018-10-26 16:38:01

阅读数 122

评论数 0

原创 『Hadoop』MapReduce 处理 日志log(单机版)

『Hadoop』MapReduce 处理 日志log(单机版) 博客引流 本文为Hadoop单机版,伪分布版请移步『HDFS』伪分布式Hadoop集群 10.2晚又出现上次CPU打满 于是痛定思痛 检查了下业务流程 发现处理日志和build两块很吃内存 尤其是日志处理,随着日志量的增大,不可避免的...

2018-10-26 16:34:00

阅读数 285

评论数 0

原创 nohup

nohup nohup = no hang up 作用在当用户从终端页面退出时,程序任务仍可以保持运行 那为何nohup可以实现这个功能呢 Ps:这篇可能会比较硬,写(chao)的时候也是头疼的很,感谢山川dalao的解惑文档 signal 在讲之前,我们需要对Linux的信号处理体系有一点了解 ...

2018-10-25 13:07:50

阅读数 573

评论数 0

原创 『HDFS』伪分布式Hadoop集群

『HDFS』伪分布式Hadoop集群 博客引流 本文是『Hadoop』MapReduce 处理 日志log(单机版)的旭文, maybe还有后续 在搭建环境的时候发现很难搜到合适的教程,所以这篇应该会有一定受众 伪分布式就是假分布式,假在哪里,假就假在他只有一台机器而不是多台机器来完成一个任务, ...

2018-10-25 13:05:22

阅读数 67

评论数 0

原创 自动更新网站访问量的定时脚本

自动更新网站访问量的定时脚本 博客引流 原理:Nginx会把访问日志写入access.log 当然 这不是 本文的重点 这种东西Google一下,一大堆 本文要实现的功能 获取总page view,注意去重,同一ip只记录一次 获取时间段中的page view 脚本化(时间变量化,写入文件自动化...

2018-10-25 13:02:57

阅读数 199

评论数 0

原创 2>&1

2>&1 博客引流 初识这个命令的时候,还是山川dalao帮我在开发机上部署java程序时,打印日志的时候使用的 当时觉得 这 2 呀 1 呀 & 什么的 怕不是位运算? 怎么就变成打印日志了 内心毫无波澜的仰慕 后来自己在EC...

2018-10-25 13:00:01

阅读数 133

评论数 0

原创 从日志中识别 Spider

从access.log中识别 Spider 博客引流 前面讲了如何利用脚本统计PV、UV,如何利用MapReduce对日志处理进行分布式操作 再继续探讨Hadoop全家桶之前,先把bash脚本做进一步优化 维护一个网站 真的很累 尤其是 一天都没几个访问量的时候 心塞塞

2018-10-25 12:54:06

阅读数 68

评论数 0

原创 `Innodb` MySQL中如何优雅的删除大表跑路

Innodb MySQL中如何优雅的删除大表跑路

2018-10-25 12:49:36

阅读数 468

评论数 0

原创 Nginx 调优

Nginx 调优 博客引流 环境: Ubuntu18.04.1 LTS - aliYun nginx/1.15.3 openssl 1.1.1 目前已经资瓷Https,Http2.0,TLS1.3,HSTS,控制一定时间内请求数等功能 HTTPS HTTPS本质上是一个公钥和私钥的配对过程,其...

2018-10-25 12:46:29

阅读数 552

评论数 2

原创 Netease Music Spider

Netease Music Spider 博客引流 这篇只是入门篇,进阶请移步Netease Music Spider for DB 爬虫是很久之前 就想研究的一个问题 但因为懒 嗯 懒 最近经常有一些写爬虫的新手 找我的网站练手 看着日志 表示很难受 所以决定自己来研究一下如何来写爬虫~~(我不...

2018-10-25 12:43:42

阅读数 84

评论数 2

提示
确定要删除当前文章?
取消 删除