自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

乌云压顶是吧

很高兴不认识你

  • 博客(14)
  • 收藏
  • 关注

原创 如何优雅的理解PageRank

博客引流终于Tex调好了 刚好最近又多次提及PageRank 于是~目测这一系列 有个两三篇blogPageRank 是 由佩奇(Larry Page)等人提出 的 Google 最为有名的技术之一我 乔治 甘拜下风PageRank 是一种基于随机游走 的 评价网站权值的算法言而总之 PageRank是一种十分重要的算法 不管在学术界 还是在产业界Node Similarity ...

2018-10-31 01:24:38 4413

原创 brew | brew cask | yum | apt-get

博客引流用过Mac的肯定 或多或少的 用过 brew这个命令在我之前的印象里 这个命令就好像Ubuntu里的apt-getCentos里的yum都是属于那种Linux下包管理器那他们之间有什么区别呢?先下结论:源码包安装: brew二进制包安装: yun | apt-get源码安装首先回顾一下什么是源码安装从命令上来看源码安装一般形式如下:wget https://xxx...

2018-10-26 16:41:21 945

原创 Frequent Pattern

博客引流作为Data mining 的第一篇 先来讲讲频繁模式频繁模式是推荐算法的基础主要解决的是从一堆数据中挖掘出频繁的组合模式举个简单的例子可能买了Mac的人,过几天会去买贴膜可能买考研英语书的人,过几天会去买考研数学书如何在大量数据中找到可能相关的几个问题,称之为Frequent Pattern频繁程度通过支持度、置信度两个参数来衡量A->B support: 即模式...

2018-10-26 16:38:01 997

原创 『Hadoop』MapReduce 处理 日志log(单机版)

『Hadoop』MapReduce 处理 日志log(单机版)博客引流本文为Hadoop单机版,伪分布版请移步『HDFS』伪分布式Hadoop集群10.2晚又出现上次CPU打满于是痛定思痛 检查了下业务流程发现处理日志和build两块很吃内存尤其是日志处理,随着日志量的增大,不可避免的是处理越来越慢,对性能要求越来越高这个时候不免想到利用MapReduce对处理过程进行分布式操作S...

2018-10-26 16:34:00 1011

原创 nohup

nohupnohup = no hang up作用在当用户从终端页面退出时,程序任务仍可以保持运行那为何nohup可以实现这个功能呢Ps:这篇可能会比较硬,写(chao)的时候也是头疼的很,感谢山川dalao的解惑文档signal在讲之前,我们需要对Linux的信号处理体系有一点了解Signal是在一种软件体系下对中断的模拟,所以也被称为软中断。Signal是进程间通信机制中唯...

2018-10-25 13:07:50 947

原创 『HDFS』伪分布式Hadoop集群

『HDFS』伪分布式Hadoop集群博客引流本文是『Hadoop』MapReduce 处理 日志log(单机版)的旭文, maybe还有后续在搭建环境的时候发现很难搜到合适的教程,所以这篇应该会有一定受众伪分布式就是假分布式,假在哪里,假就假在他只有一台机器而不是多台机器来完成一个任务,但是他模拟了分布式的这个过程,所以伪分布式下Hadoop也就是你在一个机器上配置了hadoop的所有节...

2018-10-25 13:05:22 386

原创 自动更新网站访问量的定时脚本

自动更新网站访问量的定时脚本博客引流原理:Nginx会把访问日志写入access.log当然 这不是 本文的重点这种东西Google一下,一大堆本文要实现的功能获取总page view,注意去重,同一ip只记录一次获取时间段中的page view脚本化(时间变量化,写入文件自动化)定时任务总PVawk '{print $1}' /usr/local/nginx/logs/...

2018-10-25 13:02:57 1955

原创 2>&1

2>&1博客引流初识这个命令的时候,还是山川dalao帮我在开发机上部署java程序时,打印日志的时候使用的当时觉得 这 2 呀 1 呀 & 什么的 怕不是位运算?怎么就变成打印日志了内心毫无波澜的仰慕后来自己在ECS上打印日志的时候也用到过这个命令,想还是深究一下这个问题懒癌晚期的我就cope了一个例子nohup command>/dev/null 2&...

2018-10-25 13:00:01 349

原创 从日志中识别 Spider

从access.log中识别 Spider博客引流前面讲了如何利用脚本统计PV、UV,如何利用MapReduce对日志处理进行分布式操作再继续探讨Hadoop全家桶之前,先把bash脚本做进一步优化维护一个网站 真的很累尤其是 一天都没几个访问量的时候心塞塞

2018-10-25 12:54:06 510

原创 `Innodb` MySQL中如何优雅的删除大表跑路

Innodb MySQL中如何优雅的删除大表跑路

2018-10-25 12:49:36 1172

原创 Nginx 调优

Nginx 调优博客引流环境:Ubuntu18.04.1 LTS - aliYunnginx/1.15.3openssl 1.1.1目前已经资瓷Https,Http2.0,TLS1.3,HSTS,控制一定时间内请求数等功能HTTPSHTTPS本质上是一个公钥和私钥的配对过程,其通过SSL/TLS协议实现,通常只对服务器端进行效验HTTPS配置就是配置证书配置HTTPS主要是...

2018-10-25 12:46:29 1075 2

原创 Netease Music Spider

Netease Music Spider博客引流这篇只是入门篇,进阶请移步Netease Music Spider for DB爬虫是很久之前 就想研究的一个问题但因为懒 嗯 懒最近经常有一些写爬虫的新手 找我的网站练手看着日志 表示很难受 所以决定自己来研究一下如何来写爬虫~~(我不会说这是作业的)~~本文对近2w个热门歌单的3024511首歌曲数据进行爬取及分析为什么选择爬网易...

2018-10-25 12:43:42 571 2

原创 利用Gitalk给Vuepress搭建的blog增加评论功能

Using Gitalk support comment for Vuepress这两天折腾了一下comment功能自己写花的代价肯定更大所以选择用组件目前用的比较多的有Gitalk GitmentGitment因为实践之后不能评论(可能是很久没人维护了)于是最后选择更实(hao)用(kan)的GitalkOAuth applicationGitalk, Gitment 都是基于G...

2018-10-25 12:39:15 2237

原创 从高可用IP代理池到千万级网易云音乐数据爬取的实现

千万级网易云音乐数据爬取实现

2018-10-25 12:32:56 1386 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除