爬虫python
文章平均质量分 60
绝对不要看眼睛里的郁金香
博客分享记录自己学习轨迹与过程,很多转载,留下记忆,互相学习
展开
-
编写爬虫遇到的问题总结
1,编码问题:设置文件编码格式utf-8出现问题的原因:程序中的编码错误,python默认是acii模式,没有支持utf8,代码的第3行中出现了“年 月 日”这几个汉字,所以出现了错误。2 解决方法:源代码文件第一行添加:#coding:utf-8,这样就可以避免了。参考下图。步骤阅读3转载 2015-04-24 21:16:04 · 490 阅读 · 0 评论 -
Python模拟新浪微博登录转载,是我的那篇资料来源
看到一篇Python模拟新浪微博登录的文章,想熟悉一下其中实现方式,并且顺便掌握python相关知识点。代码下面的代码是来自上面这篇文章,并稍作修改添加了一些注释。# -*- coding: utf-8 -*import urllib2import urllibimport cookielibimport lxml.html as HTMLclass Fet转载 2015-04-27 20:29:14 · 415 阅读 · 0 评论 -
sina weibo sphinx爬虫
#coding=utf-8import urllib2import cookielibfrom bs4 import BeautifulSoupimport sysimport urllibimport lxml.html as HTMLreload(sys)sys.setdefaultencoding('utf8')fl=open('weibo','w')原创 2015-04-27 19:26:49 · 6510 阅读 · 0 评论 -
Beautiful Soup 4.2.0 文档
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况.文档中出现转载 2015-04-27 20:27:25 · 355 阅读 · 0 评论 -
python模拟登录的实现
python模拟登录的实现本文主要用python实现了对网站的模拟登录。通过自己构造post数据来用Python实现登录过程。当你要模拟登录一个网站时,首先要搞清楚网站的登录处理细节(发了什么样的数据,给谁发等...)。我是通过HTTPfox来抓取http数据包来分析该网站的登录流程。同时,我们还要分析抓到的post包的数据结构和header,要根据提交的数转载 2015-04-25 13:52:33 · 316 阅读 · 0 评论 -
python urllib2详解及实例
urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。他以urlopen函数的形式提供了一个非常简单的接口,这是具有利用不同协议获取URLs的能力,他同样提供了一个比较复杂的接口来处理一般情况,例如:基础验证,cookies,代理和其他。它们通过handlers和openers的对象提供。 urllib转载 2015-04-25 14:28:08 · 295 阅读 · 0 评论 -
腾讯、网易、新浪新闻网站爬虫编写记录及评论格式分析
0 前言先说说看这篇博客你能知道什么:1 腾讯、网易、新浪不同新闻的地址格式以及评论内容的地址格式(返回数据为json的异步接口);2 一些比较通用的设计方法,对软件设计的菜鸟可能有帮助;之前也说了要写这篇博客,现在终于写出来了。我的毕业设计的指导老师说毕设论文的字数不够……所以我决定把这些本不应该出现在论文中的实现细节凑到论文中。至于下面说到的东西要解决什么问题,各位可以先看看这转载 2015-04-21 23:17:07 · 1405 阅读 · 0 评论 -
标准库:urllib/urllib2
1. 对Python标准库的一个大致认识2. Python urllib模块与urlopen()函数解析3. urllib urlopen()对象方法/代理的补充说明4. Python urllib的urlretrieve()函数解析5. Python urllib模块的URL编码解码功能6. Python库里urllib和urllib2的区别7. urll转载 2015-04-24 09:49:22 · 874 阅读 · 0 评论 -
Python的中文处理
一、使用中文字符 在python源码中如果使用了中文字符,运行时会有错误,解决的办法是在源码的开头部分加入字符编码的声明,下面是一个例子: #!/usr/bin/env python # -*- coding: cp936 -*- Python Tutorial中指出,python的源文件可以编码ASCII以外的字符集,最好的做法是在转载 2015-04-24 10:35:48 · 335 阅读 · 0 评论 -
Python]网络爬虫
[Python]网络爬虫(一):抓取网页的含义和URL基本构成分类: 爬虫 Python2013-05-13 22:30 1597人阅读 评论(0) 收藏 举报一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从转载 2015-06-08 18:47:17 · 510 阅读 · 0 评论