- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 Python爬虫之模拟登录豆瓣获取最近看过的电影
众所周知,很多网站都设置了登录之后才能获取查看页面的权利,因此模拟登录成了爬取信息的第一步,这一步成功了,嘿嘿,just do it!好,废话不多说,直接说重点:首先,你应该要了解网站登录的流程以及你需要post的信息,以豆瓣为例:这就是你需要提交的信息了,包括用户名和密码,以及验证码和验证码的ID,看到这可能有人会想我怎么知道验证码的ID,各位放心,在页面加载时就已经到客户端这边来了,也就是说你可以直接从浏览器中看到,是不是很炫酷!第二步,需要了解一些requests这个库了,因为reque
2015-08-03 11:56:31 13158 27
原创 爬虫之获取豆瓣电影排行榜(BeautifulSoup)
对于简单的网页,正则表达式能够很好的工作,但是当网页稍微复杂,网页元素很多时,正则表达式工作起来可能很麻烦。这个时候如果利用BeautifulSoup这个库会得到意想不到的效果。下载地址:http://www.crummy.com/software/BeautifulSoup/#Download/参考文档:BS参考文档下载下来之后解压,点击setup,然后就可以使用这个库了,如果下载的
2015-08-02 15:30:40 4462 2
原创 批量下载百度贴吧帖子图片
总体功能:下载百度贴吧网页的图片这个例子延续了上一个抓取贴吧楼主发布内容的例子,上一个例子是把图片剔除掉了,这边重新做了一个下载图片的demo,比较简单。代码:# -*- encoding:utf-8 -*-# 下载贴吧的图片import reimport urllibimport urllib2#下载百度贴吧图片类class DownloadIm
2015-08-02 11:20:22 3193 1
转载 Python正则表达式指南
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.4完成;如果看到不明白的词汇请记得百度谷歌或维基,whatever。尊重作者的劳动,转载请注明作者及原文地址 >.html1. 正则表达式基础
2015-08-01 17:23:58 1317
原创 我是一只百度贴吧的小爬虫
总体功能:查看特定帖子楼主的发言(不包含图片)前段时间大概看了python的语法,但是确实第一次用python来写东西。很久之前就想学python,学爬虫了,现在终于开始了!谢了自己的第一个爬虫,很开心O(∩_∩)O 觉得学东西兴趣很重要,爬虫真的好玩!整个功能的实现含有两个类,一个是工具类Tool,另一个是百度贴吧的爬虫类BaiduTieba,提取网页的内容主要还是正则表达式。代码如下:# -*-
2015-08-01 17:16:58 2087
原创 由一个梦想到的
昨天晚上做了一个很神奇的梦,梦里我在清华听一个报告,旁边坐的是一个同学的导师。听完报告,旁边的教授问我,听懂了吗?我说,大概都听懂了,我真的以为我听懂了。于是教授向我抛出了三个问题:是什么?为什么?怎么做?随着问题的深入,我被问的哑口无言,最终竟无言以对。原来,我以为的并不是我以为的。 半夜里我从梦中惊醒,内心久久不能平静,沉思良久,这不只是一个简单的梦。从出生到现在,一路走来,面对许多的选择,彷
2015-08-01 11:06:20 918 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人