爬虫
木偶跳舞
个人博客
展开
-
python beautifulsoup 安装教程
linux版:pip install beautifulsoup4windows版: 下载 beautifulsoup 安装包 下载地址:http://www.cr173.com/soft/109251.html 下载解压后,将文件夹放到 C:/Python27 文件夹中 在cmd中进入beautifulsoup 文件夹,运行命令:python setup.py bu...原创 2016-06-21 11:19:35 · 1049 阅读 · 0 评论 -
python 网页内容抓取
使用模块: import urllib2 import urllib普通抓取实例:#!/usr/bin/python# -*- coding: UTF-8 -*-import urllib2url = 'http://www.baidu.com'#创建request对象request = urllib2.Request(url)#发送请求,获取结果try: response =原创 2016-06-22 11:37:14 · 493 阅读 · 0 评论 -
beautifulsoup 解析html方法(爬虫)
用BeautifulSoup 解析html和xml字符串实例:#!/usr/bin/python# -*- coding: UTF-8 -*-from bs4 import BeautifulSoupimport re#待分析字符串html_doc = """<html><head> <title>The Dormouse's...原创 2016-06-22 14:25:31 · 38339 阅读 · 1 评论 -
Python_urllib模块
urllib模块中的方法:urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作。本例试着打开google复制代码import urllibf = urllib.urlopen('http://www.baidu.com/')firstLine = f.readline() #读取html页面的第一行原创 2016-06-22 15:30:04 · 495 阅读 · 0 评论 -
php 下载文件
set_time_limit(0); // Supports all file types // URL Here: $url = 'http://somsite.com/some_video.flv'; $pi = pathinfo($url); $ext = $pi['extension']; $name = $pi['filename']; // create a new cURL转载 2016-09-18 17:45:22 · 333 阅读 · 0 评论 -
php DOM 乱码解决
/** * 请求url页面信息 * @param str $url * @return str mixed|boolean */function curl_get($url) { $curl = curl_init(); curl_setopt($curl, CURLOPT_URL, $url); curl_setopt($curl, CURLOPT_RETURN原创 2016-09-12 17:47:16 · 1025 阅读 · 0 评论 -
PHP simple_html_dom 使用说明
下载地址:https://sourceforge.net/projects/simplehtmldom/files/使用说明: http://www.cnphp.info/php-simple-html-dom-parser-intro.html http://simplehtmldom.sourceforge.net/manual.htm原创 2016-11-18 10:54:50 · 2055 阅读 · 0 评论