Web Spider
文章平均质量分 54
积微成著
每一个你不满意的现在,都有一个你没有努力的曾经。
展开
-
爬虫笔记
在python中打开网页import webbrowser as webweb.open_new_tab('http://www.baidu.com')获取网页状态码#coding:utf-8import urlliburl = 'http://www.baidu.com'html = urllib.urlopen(url)print html.getcode()输出:200HTTP状态码原创 2016-07-11 09:31:55 · 2986 阅读 · 0 评论 -
python网络刷博器爬虫
主要面临三个问题: * 如何打开浏览器 * 如何刷“阅读次数” * 如何关闭浏览器import webbrowser as webimport time import osimport randomcount = random.randint(20,40)#随机产生一个20 到40 之间的随机数j = 0while j < count: i = 0 while i原创 2016-07-11 10:11:51 · 544 阅读 · 0 评论 -
爬取贴吧上的图片到本地
获取整个页面数据#coding=utf-8import urllibdef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmlhtml = getHtml("http://tieba.baidu.com/p/2738151262")print htmlurllib 模块提供了读取w原创 2016-07-11 13:09:54 · 7306 阅读 · 0 评论 -
使用爬虫抓取网站异步加载数据
什么是异步加载? 向网站进行一次请求,一次只传部分数据。如:有些网页不需要点击下一页,其内容也可以源源不断地加载。如何发现异步加载? 1、打开浏览器,右键选择“检查” 2、点击“Network”、“XHR” 这样在网页进行不断下拉的过程中,显示器会记录全部动作。可以看到不断加载新的页。如何加载异步数据? 具体例子:from bs4 import BeautifulSoupimpor原创 2016-07-15 13:48:50 · 20010 阅读 · 3 评论 -
Python爬虫——下载韩寒博客文章
韩寒新浪博客:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 提醒:韩寒的新浪博客文章共有316篇,共7页。爬取第一页的前十篇文章,并下载到本机#coding:utf-8import urllibimport timeurl = ['']*10 con = urllib.urlopen('http://blog.si原创 2016-07-08 19:28:19 · 2165 阅读 · 2 评论 -
爬虫例子——多页、函数模板
爬取地址:http://bj.xiaozhu.com/ 包含信息:多页;每页24个链接 爬取要求:爬取每个链接的标题、地址、价格、图片链接、主人名称、主人性别from bs4 import BeautifulSoupimport requestsdef get_info(page_number): urls = get_page_link(page_number) for ur原创 2016-07-21 18:17:36 · 1838 阅读 · 0 评论 -
Python3中urllib使用介绍
Py2.x:Urllib库Urllin2库Py3.x:Urllib库变化:在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import urllib.request,urllib.error。在Pytho2.x中使用import urllib——-对应的,在Python3.x中会使用import urllib.request,urllib.原创 2017-08-19 17:40:16 · 88134 阅读 · 8 评论