http://www.cn360cn.com/ 抓取分类爬虫

原创 2013年12月03日 14:40:03
<?php
include "../../config/common.php";


define( "PREG_HREF_CAT", "/<div id=\"divhangye\">(.*?)<\/div>/is" );


$proxy = new Proxy();


for($page=1; $page<32; $page++) {
$base = 'http://www.cn360cn.com/';
$url = "http://www.cn360cn.com/province_" . $page . ".aspx";
$cats = get_cat($url);
if(empty($cats)) {
continue;
}
foreach ($cats as $item) {
$item = trim($item);
$item = addslashes($base . $item);
$sql = "insert ignore into cn360_cat set url='{$item}' ";
$proxy->sql_query($sql);
}
}


function get_cat($url = null) {
$content = file_get_contents($url);
$content = mb_convert_encoding($content, "utf-8", "gb2312");
preg_match(PREG_HREF_CAT, $content, $temp);
if(isset($temp[1])) {
$temp = $temp[1];
preg_match_all("/<a\s*href=\"?(.*?)\"?>.*?<\/a>/is", $temp, $urls);
return isset($urls[1]) ? $urls[1] : false;
}
return false;
}

网站类型和爬虫抓取类型

帮助初学者迅速了解网络爬虫及如何爬取各种类型网站
  • u010539469
  • u010539469
  • 2016年07月22日 10:11
  • 1717

使用golang抓取京东全部商品分类信息

package main import ( // "errors" "fmt" "io/ioutil" "net/http" "os" "regexp" "strings" ) ty...
  • pssmart
  • pssmart
  • 2016年05月26日 11:52
  • 649

网络爬虫(一)--抓取天气预报网站城市信息

import urllib.request   url1='http://m.weather.com.cn/data5/city.xml' content1=urllib.request.url...
  • Watson2016
  • Watson2016
  • 2016年07月23日 20:48
  • 1291

爬虫:实现网站的全部图片抓取

花了一天左右的时间,用Java写了一个图片爬取,理论上是可以将所有的图片爬下的,但是整个站点图片太多了,所以只测试的爬了9000张左右的图片。好啦先看效果图。 &amp;lt;img src=...
  • qq_24489717
  • qq_24489717
  • 2016年10月22日 16:49
  • 4441

教您使用java爬虫gecco抓取JD全部商品信息

教您使用java爬虫gecco抓取JD全部商品信息gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。...
  • xtuhcy
  • xtuhcy
  • 2016年03月18日 14:06
  • 1096

Python网络爬虫小试刀——抓取ZOL桌面壁纸图片2

将一个类型集合的全部图片下载到指定名字文件夹中,使用urllib2
  • u011197105
  • u011197105
  • 2015年12月26日 11:11
  • 752

使用HttpClient实现一个简单爬虫,抓取煎蛋妹子图

第一篇文章,就从一个简单爬虫开始吧。 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地。...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年05月23日 19:03
  • 2737

Python 爬虫笔记(对维基百科页面的深度爬取)

*#! /usr/bin/env python #coding=utf-8 import urllib2 from bs4 import BeautifulSoup import re im...
  • qq_16103331
  • qq_16103331
  • 2016年09月27日 15:05
  • 1490

Python_网络爬虫(新浪新闻抓取)

爬取前的准备: BeautifulSoup的导入:pip install BeautifulSoup4requests的导入:pip install requests下载jupyter note...
  • gongxiaojiu
  • gongxiaojiu
  • 2017年07月30日 13:28
  • 404

Python爬虫实战(4):抓取淘宝MM照片

原文出处: 崔庆才的博客(@崔庆才丨静觅)   http://python.jobbole.com/81359/ Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Pyth...
  • u010781856
  • u010781856
  • 2015年11月04日 22:16
  • 839
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:http://www.cn360cn.com/ 抓取分类爬虫
举报原因:
原因补充:

(最多只允许输入30个字)