自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DEBUG

码农一枚

  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 php爬虫教程(五)提高爬虫抓取效率

多进程抓取

2016-08-30 16:16:58 4987 2

原创 php爬虫教程(四)抓取数据并进行处理

经过链接的分析,数据的分析,再加上规则的验证。很容易的我们就get到了我们打算抓取到的数据,so,我们就可以做我们想做的事情了。例如:<?phpheader("Content-type:text/html;charset=utf8");set_time_limit(0);require('client.php');$client = new client();$base_ur

2016-08-30 16:05:26 7482

原创 php爬虫教程(三)规则分析

像我之前说的例子就是很简单的抓取例子,也有的平台为了防止爬虫抓取数据很做一些请求的验证。

2016-08-30 15:52:48 2335

原创 php爬虫教程(二)数据请求分析

可以看到这个请求返回的就是整个页面的html,如果我们需要这里的某一个数据就可以通过正则匹配的方式匹配出来/(.*?)/ 这样title就被匹配出来了这是我实际应用的一个代码段仅供参考。foreach($arr as $v=>$k){ $str = ''; $res = $client->get("http://waimai.xxxxx.com/waimai/sho

2016-08-30 15:18:51 2256

原创 php爬虫教程(一) 简单的页面抓取

最近朋友抓取点数据,写了几个抓取数据的脚本。主要功能是,分别抓起x了么,美x,x度外卖的餐厅和菜品数据 ,后期我把代码分享出来。今天就先说说简单的页面抓取-------------------php的抓取主要采用了 CURL一个非常强大的开源库。可以自行百度一下。// 1. 初始化 $ch = curl_init(); // 2. 设置选项,包括URL curl

2016-08-30 15:07:07 16048 1

原创 php+redis实现对200w用户的即时推送服务

怎么实现对200w用户的即时推送,这个推送可以理解为调用第三方的接口,push,sms之类的东西。当时先写了一个demo 直接读取DB然后单个推送,结果。。。。可想而知于是设计一套基于redis+php多进程的方案,用着还不错而去扩展性蛮高的,故分享之。=============================================具体的逻辑如下:(无视我的字体)

2016-08-25 12:05:19 11318 4

原创 mysql求分组的前3名

具体思路就是,查询出当前数据表里,每一条数据在当前分组里的排名。-- 效率不咋滴 谁有更好的方法--SELECT    a.*FROM    (        SELECT            t1.*,            (                SELECT                    count(*) + 1        

2016-08-25 12:23:27 1092

原创 nginx按日期存储日志

首先写一个sh的文件autolog.sh#!/bin/sh# Program:# Auto cut nginx log script.LOGS_PATH=/home/wwwlogs/ #你的日志目录TODAY=$(date -d 'yesterday' +%Y-%m-%d-%H)#TODAY=history # 移动日志并改名mv ${LOGS_PATH}/nginx_e

2016-08-17 16:28:57 6227 1

原创 mysql优化相关知识点

所有字段建议设置为非NULL,从效率和索引上来说,NULL占空间并且不走索引,所以请将所有字段设置为非NULL有些字段在程序中设定当值为某个具体数的时候表示为空,但这个数字在程序中又是根据不定值得来的,有可能真正有意义的数字是这个为空的数字,建议将为空的表示做成不在程序范围的数字有些表有创建时间或者更新时间,建议使用timestamp类型,自动更新,要求MYSQL5.5以上建议所有时间

2016-08-13 15:11:04 519

原创 阿里云服务器日志服务使用

https://help.aliyun.com/document_detail/28960.html?spm=5176.doc29063.6.89.ZQ91B4 这个是官方的文档,我也是一步一步照着弄的还是比较清晰的,方便的。我在这里大致的说一下流程首先你一定要有一个Access Key Access Key  Access Key  ==(坑了一个下午,不申请的话就是不显示数据。都是眼泪

2016-08-13 14:22:38 6712 4

原创 阿里云sls日志服务的简单监控 php实现

由于工作需要最近接触了阿里云的sls日志服务,写了一个基于阿里云sls日志服务和SDK的简单的监控脚本。==============================首先需要开通阿里云的日志服务并且可以通过控制台读取相应日志,这里不就不详细说了有时间我会专门写一篇这方面的帖子。值得注意的是,想要通过SDK读取日志的话一定要设置日志索引。设置索引:https://help.aliy

2016-08-13 13:58:34 4933

ChromeDriver 116版本 全系统win mac linux

ChromeDriver谷歌浏览器驱动 包括win linux mac 注意版本号116才可以哦!最新版的谷歌浏览器

2023-09-08

xpdf中文支持

xpdf中文支持

2016-11-15

xpdf实现pdf读取

xpdf 读取pdf

2016-11-15

oop学习基础接口和继承demo

学习php oop的小demo 可以用来参考~~接口和继承的使用

2014-07-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除