爬虫
清新阳光521
一起来学习吧!
展开
-
爬虫教程(1)基础入门
爬虫介绍网络爬虫,英译为 web crawler ,是一种自动化程序,现在我们很幸运,生处互联网时代,有大量的信息在网络上都可以查得到,但是有时我们需要网络上的数据,活着文章,图片等等,但是,一个个地复制,粘贴是不是太傻了,循着 “DRY” 的设计原则,我们希望用一个自动化的程序,自动帮我们匹配到网络上面的数据,然后下载下来,为我们所用。其中,搜索引擎就是个很好的例子,搜索引擎转载 2017-04-07 16:24:01 · 21815 阅读 · 4 评论 -
用python爬虫抓站的一些技巧总结
学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少转载 2017-04-21 14:19:15 · 1561 阅读 · 1 评论 -
python中文件读写及操作目录 文件夹等
为了安全起见,最好还是给打开的文件对象指定一个名字,这样在完成操作之后可以迅速关闭文件,防止一些无用的文件对象占用内存。举个例子,对文本文件读取:file_object = open('thefile.txt') try: all_the_text = file_object.read( ) finally: file_object.close( )Py转载 2017-04-21 14:00:29 · 4775 阅读 · 0 评论 -
Python中range()函数和list比较
使用Python的人都知道range()函数和list很方便,今天再用到他的时候发现了很多以前看到过但是忘记的细节。这里记录一下range()和list。[python] view plain copy>>> range(1,5) #代表从1到5(不包含5) [1, 2, 3, 4] >>> range(1,5,2) #代转载 2017-04-21 13:41:14 · 4128 阅读 · 0 评论 -
在Python中增加和插入元素
在Python中append 用来向 list 的末尾追加单个元素,如果增加的元素是一个list,那么这个list将作为一个整体进行追加。例如:Python代码li=['a', 'b'] li.append([2,'d']) li.append('e') #输出为:['a', 'b', [2, 'd'], 'e'] 在Python中 insert转载 2017-04-21 13:37:38 · 2714 阅读 · 0 评论 -
python使用pyquery库总结
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的。他的官方文档地址是:http://packages.python.org/pyquery/。今天重新看了一遍整个文档,把它的一些使用方法整理了一下,做个记录。使用方法from pyquery import PyQuery as pq转载 2017-04-21 13:30:01 · 602 阅读 · 0 评论 -
python中 f.write写入中文出错解决方法
一个出错的例子#coding:utf-8s = u'中文'f = open("test.txt","w")f.write(s)f.close() 原因是编码方式错误,应该改为utf-8编码 解决方案一:#coding:utf-8s = u'中文'f = open("test.txt","w")f.write(s.encode("utf-8"))f转载 2017-04-21 13:24:03 · 25153 阅读 · 2 评论 -
python爬取糗事百科
看了麦子学院的视频,整理出面向过程代码和面向对象代码,灰常感谢胡明星老师的讲解!面向过程源码如下:#coding:utf-8import urllib2import reimport osprint "start"for i in range(1,35): url = 'http://www.qiushibaike.com/8hr/page/'+str(i)原创 2017-04-20 14:09:32 · 528 阅读 · 0 评论 -
python爬虫神器PyQuery的使用方法
PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。天下竟然有这等好事?我都等不及了!安装有这等神器还不赶紧安装了!来!1pip install pyquery参考来源本文内容转载 2017-04-19 16:20:54 · 736 阅读 · 0 评论 -
python爬虫实例项目大全
WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Shee转载 2017-04-21 14:59:54 · 42859 阅读 · 0 评论