heiyeluren的blog(黑夜路人的开源世界)

关注LAMP,Web开发,OpenSource,系统架构

谢华亮ID:heiyeshuwu
810345次访问,排名38好友26人,关注者48
既然决定远行,便只顾风雨兼程。
heiyeshuwu的文章
原创 275 篇
翻译 3 篇
转载 199 篇
评论 484 篇
heiyeluren的公告

联系方式:


访问统计: free hit counter code
FeedSky订阅:
FeedSky订阅
最近评论
shangwu:你好,看了你的这篇文章,学到不少东西,非常感谢
但有个问题想请教一下,就是我用“跟踪自定义”功能的时候写到trace文件中的中文为乱码。
请问这个问题应该如何解决啊
谢谢

protonlzy[at]gmial.com
tghtght:meiuyou
美思内衣:很不错,很全面
askzhigang:不错不错,太强了,我也希望楼主能写一个chatserver,现在太多人需要这个了!
568:8507
文章分类
收藏
    相册
    技术图片
    搜索引擎
    ::eYou::
    kevin world
    lewis - 老吕
    qyb - BT的花
    Realzay的blog
    叶金荣
    天堂地狱鬼-dulao5's Blog
    沙漠之周
    狐狸糊涂
    老韩
    與子觀化
    ::Yahoo::
    glemir’s blog
    Rainx
    stauren
    互联网,请记住我 - 162同学的技术博客
    小蚂蚁同学滴测试博客
    张彪同学
    随网之舞 - kaven的DHTML博客
    ::朋友::
    【推荐】中文分类网
    DDR的博客
    kevin world
    miky
    俺兄弟的blog
    冰河的技术博客:心随风动
    小少的技术博客
    无尘居
    晋陵路人的Blog
    李天华同学滴技术博客
    沙狐部落
    ::网友::
    Code & Stock.
    LionD8的Blog
    Phzzy
    张贺同学的博客
    技术大牛老余的博客
    抚琴居
    邢红瑞的blog
    阿健的博客
    :PHP博客:
    .: Easy style :.
    [琴剑楼]
    CoolCode.cn
    Haohappy的Blog
    Hightman
    iwind的blog
    Javascript开发站
    JD Space
    Nio's Weblog
    Open Source PHP
    PHP面对对象
    SourceForge.net
    trip的专栏
    UGIA.cn
    windix's blog
    Windix's Weblog
    一个藏袍
    俊麟 Michael`s blog
    偶然的blog
    刘敏的blog
    大龄青年的Blog
    廖宇雷的blog
    懒猫开始新生活blog
    某人的栖息地
    王春生的博客
    神仙
    :牛人blog:
    DBA notes
    http://blog.csdn.net/tingya/
    侯捷网站
    孟岩
    搜索引擎研究
    方舟
    王咏刚的BLOG
    竹笋炒肉
    荣耀
    车东[Blog^2]
    透明思考
    陈硕的Blog
    DHTML
    DHTMLGoodies
    FCKEditor
    Google Code
    Google Web Toolkit
    HTML Goodies
    HTML.it
    HTMLAre
    HTMLdog
    JavaScript Kit
    jQuery
    KindEditor
    Prototype
    TinyMCE
    W3 Schools
    Yahoo JavaScript Developer Center
    Yahoo! Developer Network
    Yahoo! UI Library (YUI)
    网页设计师Web标准
    Java国内站
    ChinaJavaWorld.com技术论坛
    IBM developerWorks 中国: Java
    Java中文站
    Java开源大全
    Java爱好者
    JR - Java翻译站
    J道-JDON
    Matrix: 与Java共舞
    中国Java开发网
    中文java技术网
    PHP国内站点
    CSDN PHP论坛
    Discuz!
    FleaPHP
    Google--PHP用户组
    IBM DeveloperWorks
    JavsScript技术讨论
    Nirvana Studio
    OpenPHP.cn
    PHPChina
    TiM Club
    中文 PFC 1.0 手册--PHP5的开发包
    中文 PFC 1.0 手册--PHP5的开发包
    中文PHP网
    太平洋--PHP开发区
    爱MySQL
    超越PHP
    PHP国外站点
    ADOdb
    Agavi Framework
    Cake PHP
    MySQL Performance Blog
    MySQL Performance Blog
    Nonaweb
    PEAR
    PECL
    PECL Windows
    PHP Builder
    PHP Classes
    PHP Classes
    PHP New Download
    PHP Security Consortium
    php.MVC
    php.MVC
    PHPkitchen(OO & MVC)
    phpPatterns
    PHP国外图书下载
    smart template
    Smarty
    SourceForge.net
    Symfony Framework
    Zend
    Zend Framework
    Unix C/C++
    Free Gentux
    周立发的blog(Linux C)
    Unix/Linux
    BSD智库
    ChinaUnix
    FreeBSDChina
    FreeLAMP
    IBM开发者Linux专区
    Linux Byte
    LinuxKit
    LinuxTS
    Linux伊甸园
    Linux技术中坚站
    Linux非常空间
    Love Unix
    NetBSD&OpenBSD中文用户组
    NetBSD中国社区
    Oracle中国用户讨论组
    OurLinux
    Unix中文
    Unix中文
    Unix中文宝库
    中国Linux公社
    中国Unix用户技术论坛
    中文FreeBSD用户组
    永远的Unix
    炎黄角马
    程序设计
    CSDN
    IBM开发者中心
    Microsoft TechNet: 主页
    MSDN 中文网站
    PHP中文站
    Sun技术社区
    中国IT认证实验室--企业应用技术
    中国协议分析网
    喜悦国际村
    太平洋电脑网---开发特区
    实用网站
    veBook(国外大量免费图书下载网站)
    Whois.net
    中国Web信息博物馆
    中国互联网络信息中心whois查询
    服务器系统信息查看
    网络安全
    AnySide.com
    CGI Secutiry
    K-OTik Security Monitoring
    Linux Security
    Packet Storm Security
    PHP Secure
    RFC中文文档索引
    Safemode.org
    SecuriTeam.com
    Security Corporation
    SecurityFocus
    SecurityTracker
    Zone-h (区域黑客,每天公布各国被黑的网站)
    中华安全网
    中国信息安全组织
    国家计算机网络应急处理中心
    安全天使
    安全焦点
    幻影旅团
    绿盟科技
    网络安全评估中心(cnns )
    在线手册
    Apache2.0中文文档
    Beyond Linux From Scratch
    Debian参考手册
    FreeBSD Porter 手册
    FreeBSD使用手册
    Linux C函数中文参考手册
    MySQL 4.1.0 中文参考手册
    NetBSD在线手册
    OpenBSD在线FAQ
    PHP ADODB 1.99版手册中文翻译(Tripc)
    PHP中文手册(国内)
    PHP中文手册(国外)
    PostgreSQL中文文档
    Red Hat Linux 9入门指南
    Red Hat Linux 9安装指南
    Red Hat Linux 9定制手册
    中国OSS技术手册中心
    技术文档手册中心-ChinaUnix
    存档
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    原创 使用PHP简单网页抓取和内容分析收藏

    新一篇: [转]Linux下缓存服务器Memcached的应用

     

    没事的时候想抓取点网页看看,也不太懂,只是玩玩,写了点代码,聊以娱乐。

    稍微有点意义的函数是:get_content_by_socket(), get_url(), get_content_url(), get_content_object 几个函数,也许能够给你点什么想法。

    <?php

    //获取所有内容url保存到文件
    function get_index($save_file$prefix="index_"
    ){
        
    $count 68
    ;
        
    $i 1
    ;
        if (
    file_exists($save_file)) @unlink($save_file
    );
        
    $fp fopen($save_file"a+") or die("Open "$save_file ." failed"
    );
        while(
    $i<$count
    ){
            
    $url $prefix $i .".htm"
    ;
            echo 
    "Get "$url ."..."
    ;
            
    $url_str get_content_url(get_url($url
    ));
            echo 
    " OK\n"
    ;
            
    fwrite($fp$url_str
    );
            ++
    $i
    ;
        }
        
    fclose($fp
    );
    }

    //获取目标多媒体对象
    function get_object($url_file$save_file$split="|--:**:--|"
    ){
        if (!
    file_exists($url_file)) die($url_file ." not exist"
    );
        
    $file_arr file($url_file
    );
        if (!
    is_array($file_arr) || empty($file_arr)) die($url_file ." not content"
    );
        
    $url_arr array_unique($file_arr
    );
        if (
    file_exists($save_file)) @unlink($save_file
    );
        
    $fp fopen($save_file"a+") or die("Open save file "$save_file ." failed"
    );
        foreach(
    $url_arr as $url
    ){
            if (empty(
    $url
    )) continue;
            echo 
    "Get "$url ."..."
    ;
            
    $html_str get_url($url
    );
            echo 
    $html_str
    ;
            echo 
    $url
    ;
            exit;
            
    $obj_str get_content_object($html_str
    );
            echo 
    " OK\n"
    ;
            
    fwrite($fp$obj_str
    );
        }
        
    fclose($fp
    );
    }

    //遍历目录获取文件内容
    function get_dir($save_file$dir
    ){
        
    $dp opendir($dir
    );
        if (
    file_exists($save_file)) @unlink($save_file
    );
        
    $fp fopen($save_file"a+") or die("Open save file "$save_file ." failed"
    );
        while((
    $file readdir($dp)) != false
    ){
            if (
    $file!="." && $file!=".."
    ){
                echo 
    "Read file "$file ."..."
    ;
                
    $file_content file_get_contents($dir $file
    );
                
    $obj_str get_content_object($file_content
    );
                echo 
    " OK\n"
    ;
                
    fwrite($fp$obj_str
    );
            }
        }
        
    fclose($fp
    );
    }


    //获取指定url内容
    function get_url($url
    ){
        
    $reg '/^http:\/\/[^\/].+$/'
    ;
        if (!
    preg_match($reg$url)) die($url ." invalid"
    );
        
    $fp fopen($url"r") or die("Open url: "$url ." failed."
    );
        while(
    $fc fread($fp8192
    )){
            
    $content .= $fc
    ;
        }
        
    fclose($fp
    );
        if (empty(
    $content
    )){
            die(
    "Get url: "$url ." content failed."
    );
        }
        return 
    $content
    ;
    }

    //使用socket获取指定网页
    function get_content_by_socket($url$host
    ){
        
    $fp fsockopen($host80) or die("Open "$url ." failed"
    );
        
    $header "GET /".$url ." HTTP/1.1\r\n"
    ;
        
    $header .= "Accept: */*\r\n"
    ;
        
    $header .= "Accept-Language: zh-cn\r\n"
    ;
        
    $header .= "Accept-Encoding: gzip, deflate\r\n"
    ;
        
    $header .= "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; InfoPath.1; .NET CLR 2.0.50727)\r\n"
    ;
        
    $header .= "Host: "$host ."\r\n"
    ;
        
    $header .= "Connection: Keep-Alive\r\n"
    ;
        
    //$header .= "Cookie: cnzz02=2; rtime=1; ltime=1148456424859; cnzz_eid=56601755-\r\n\r\n";
        
    $header .= "Connection: Close\r\n\r\n"
    ;

        
    fwrite($fp$header
    );
        while (!
    feof($fp
    )) {
            
    $contents .= fgets($fp8192
    );
        }
        
    fclose($fp
    );
        return 
    $contents
    ;
    }


    //获取指定内容里的url
    function get_content_url($host_url$file_contents
    ){

        
    //$reg = '/^(#|javascript.*?|ftp:\/\/.+|http:\/\/.+|.*?href.*?|play.*?|index.*?|.*?asp)+$/i';
        //$reg = '/^(down.*?\.html|\d+_\d+\.htm.*?)$/i';
        
    $rex "/([hH][rR][eE][Ff])\s*=\s*['\"]*([^>'\"\s]+)[\"'>]*\s*/i"
    ;
        
    $reg '/^(down.*?\.html)$/i'
    ;
        
    preg_match_all ($rex$file_contents$r
    );
        
    $result ""
    //array();
        
    foreach($r as $c
    ){
            if (
    is_array($c
    )){
                foreach(
    $c as $d
    ){
                    if (
    preg_match($reg$d)){ $result .= $host_url $d."\n"
    ; }
                }
            }
        }
        return 
    $result
    ;
    }

    //获取指定内容中的多媒体文件
    function get_content_object($str$split="|--:**:--|"
    ){    
        
    $regx "/href\s*=\s*['\"]*([^>'\"\s]+)[\"'>]*\s*(<b>.*?<\/b>)/i"
    ;
        
    preg_match_all($regx$str$result
    );

        if (
    count($result) == 3
    ){
            
    $result[2] = str_replace("<b>多媒体: """$result[2
    ]);
            
    $result[2] = str_replace("</b>"""$result[2
    ]);
            
    $result $result[1][0] . $split .$result[2][0] . "\n"
    ;
        }
        return 
    $result
    ;
    }

    ?>

    发表于 @ 2006年05月31日 01:52:00|评论(loading...)|编辑

    旧一篇: [转] 使用 DHTML 与 XML 制作 Ajax 幻灯片

    评论

    #situation 发表于2006-06-02 23:19:00  IP: 221.220.108.*
    看看,看看,来看看。
    发表评论  


    登录
    Csdn Blog version 3.1a
    Copyright © heiyeluren