![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
py web抓取分析
文章平均质量分 66
uestcyao
这个作者很懒,什么都没留下…
展开
-
python根据unicode判断语言类型
[python] view plaincopyprint?def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar'\u9fa5': return True else: return False def is_number(uchar):转载 2014-03-25 19:57:20 · 3856 阅读 · 0 评论 -
python http请求及cookie的模拟
对去哪儿网请求发送http查询:方法中,url必须是无一个dns查询的url,不能够包含Url中的子目录;比如www.baidu.com是一个有效的url,而 www.baidu.com/file/ 就不是一个有效的urlpost的时候header中的refer那个参数很重要。def get(self, url, searchDepartureAirport=None,原创 2012-08-22 15:54:30 · 39347 阅读 · 1 评论 -
博客文章数据的爬取
http://blog.sina.com.cn/s/blog_6266e57b010128l4.html序,引子谨以此文,感谢那些在自己的博客上提供优质的问题解答的寂寞英雄们。。我要是女的,就嫁给默默的你们中的一个回来有了快5天了, 冷的很 因为Google App Engine 被墙,我无法继续完善我的Moven project 还有20+天才转载 2012-08-23 11:19:55 · 5130 阅读 · 1 评论 -
定向抓取漫谈
网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在放入到爬取队列之中,然后进行新一轮的爬取,直到抓取完毕为止。我们看一下crawler一般会遇到什么样的问题吧:抓取的网页量很大转载 2012-08-22 17:37:10 · 1163 阅读 · 0 评论 -
python的cookie操作
http://www.cnpythoner.com/post/30.html今天晚上不是很忙,所以早早的就在电脑的旁边开始写东西了。我今天给大家分享一个我自己用python写的自动登录 人人网的脚本,没办法就是懒!懒的输入帐号和密码,让python给我们减少工作量! 先上脚本吧,等下来讲下知识点:#!/usr/bin/env python#encoding=转载 2012-08-22 16:22:35 · 6304 阅读 · 0 评论 -
python urllib2的使用案例
使用urllib2,太强大了试了下用代理登陆拉取cookie,跳转抓图片......文档:http://docs.python.org/library/urllib2.html 直接上demo代码了包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理 #!/usr/bin/python # -*- coding:utf-8转载 2012-08-22 22:26:53 · 2010 阅读 · 0 评论 -
python在linux安装和打开及基本语法
wing-101-4.1http://docs.python.org/library/urllib2.html#module-urllib2关于pass,我的理解就是空语句,是为了保持程序结构的完整性。以if语句为例,在c或c++/java中:if(true);//do nothingelse{//do something}对应于python原创 2012-08-09 15:19:11 · 446 阅读 · 0 评论 -
对“分析网页的过程及工具”的功能记录
正则是一种基于文字匹配的查询模式,往往使用回溯算法,在文本内容很多的时候,会产生很大的运行成本。而且,在处理的过程中,很容易就因为一个小的符号的问题产生结果上的错误。xpath是一个处理xml的工具包,针对的应用场景是处理一个结构化的xml文件。它使用节点树的概念对目标进行处理,查找一个xml文件中的信息的效率就是搜索树的效率。这样大大提高了搜索的效率,而且在进行条件查询时,能够提供//d原创 2012-08-20 11:53:02 · 508 阅读 · 0 评论 -
eclipse内python的中文处理
尼玛又在中文处理的地方出问题了,肿么回事呢?哎,纠结了半天终于搞定了,原来是页面的编码方式得指定,在每个python文件的文件顶端增加一行代码:#coding=gbk这样就可以了。另外,IDE的编码方式,得于python文件中指定的编码方式一致,否则也容易出问题。先记在这,出问题再说。改eclipse里面的注释的乱码:有时候和别人协同开发,发现各自的eclipse写出来的j原创 2012-08-17 17:13:51 · 3653 阅读 · 0 评论 -
lxml类库的介绍文档
作者:Shane出处:http://bluescorpio.cnblogs.com lxml takes all the pain out of XML. Stephan Richter lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库。lxml是为libxml2和libxslt库的一个Python化的绑定。它与众不同的地方是它兼顾了这些转载 2012-08-17 17:59:51 · 13154 阅读 · 0 评论 -
cookie ajax动态网页数据的抓取
昨天得到一个任务,是抓以ajax技术获得的动态网页的数据。这个任务与之前任务的区别在于,之前的静态数据只需要get抓取一次;而动态网页则其静态部分在第一次请求的时候返回,但是其动态的部分则需要在第一次请求之后,获取cookie然后再用这个cookie去向服务器提交请求,之后才能够获取到网页动态部分的数据。总结一下这个探索的过程,起初使用httplib在做这个功能,结果调试很久没有找到问题所在。原创 2012-08-23 17:56:58 · 5672 阅读 · 0 评论 -
Python安装lxml(编译安装其依赖的库)
http://www.coder4.com/archives/3660转载 2014-03-21 15:07:46 · 2695 阅读 · 0 评论 -
python beautifulsoup的安装导入
··一个BeautifulSoup的模块,安装就浪费了俺这么长时间,下载的是BeautifulSoup4-4.1.3,安装的时候就是 python setup.py build python setup.py install就这么简单的两个命令,因为安装之前也看了下别人的就是这样,可是自己import的时候,总出错,弄了半天才转载 2014-03-17 13:12:21 · 4846 阅读 · 3 评论 -
python编码转换
python 编码转换主要介绍了python的编码机制,unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换。常见的编码转换分为以下几种情况:自动识别 字符串编码可以使用 chardet 模块自动识别 字符创编码chardet 使用方法unicode 转换为其它编码(GBK, GB2312等)转载 2012-08-28 10:16:05 · 4022 阅读 · 0 评论 -
python类的语法
最近用到了python的类,需要使用Python类来调用方法处理一些问题。那么在使用的时候遇到一些问题,python类的实例化:jp=ParseModel.JsonParser()。在这里JsonParser是我所举得一个例子。如果JsonParser的__init__初始化函数包含一些参数的话,那么需要在括号中加入一些参数。原创 2012-08-28 14:29:15 · 614 阅读 · 0 评论 -
正则表达式分析网页数据
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.4完成;如果看到不明白的词汇请转载 2012-08-14 14:59:41 · 10610 阅读 · 0 评论 -
正则表达式入门教程
正则表达式30分钟入门教程版本:v2.32 (2011-8-17) 作者:deerchao 来自:http://deerchao.net/tutorials/regex/regex.htm目录跳过目录本文目标如何使用本教程正则表达式到底是什么东西?入门测试正则表达式元字符字符转义重复字符类分枝条转载 2012-08-26 21:52:21 · 870 阅读 · 0 评论 -
json在python下的解析
http://json.org/这个事json的官方网站,上面有很多json工具的介绍,和json的原理性介绍。dos下面simplejson的安装,先配置系统变量里面的path至C:/python27/,然后进入simplejson的目录,输入python.exe setup.py install这个命令,执行安装程序即可。一、JSON的格式:转载 2012-08-21 16:50:23 · 13143 阅读 · 0 评论 -
simplejson的安装和使用
进入dos命令行下面,使用的命令是:python.exe setup.py installjson的数据读入必须是大括号作为数据段的起始标志,如果是中括号则是list类型,而小括号则不能够解析。如下图是正确的:{ "oneway_data": "null", "flightInfo": "null", "desc": "192.168.20.171", "time原创 2012-08-26 11:13:18 · 5678 阅读 · 1 评论 -
python资料汇总
http://www.douban.com/group/topic/13716762/newthreading - safer concurrency for Python 安全并发(1回应) http://www.starming.com/index.php?action=plugin&v=wave&tpl=union&ac=viewgrouppost&gid转载 2012-08-20 17:49:24 · 1214 阅读 · 0 评论 -
xpath实践代码总结
xpath依据条件解析抽取网页中的需要的数据的方法:使用的软件包,lxml其中的etree.HTML方法用于将格式化过的包含HTML数据的.xml文件处理成可供xpath正确处理的节点树, codecs这个软件包的功能不详!!, chilkat用于将html文件格式化成标准的xml文件(即标签的开关是严格对应的)。xpath处理的最好是.xml后缀的文件,尝试了下html后缀的文件,即使内容完原创 2012-08-21 11:37:12 · 966 阅读 · 0 评论 -
libxml2库的安装,xpath的使用
http://www.redicecn.com/html/Python/20101101/185.htmlPython的libxml2库支持xpath。但默认没有包含该库,需要单独安装。libxml2 Win32版可以在如下地址下载:http://xmlsoft.org/sources/win32/python/我的Python版本是2.5,这里我下载安装了libx转载 2012-08-17 18:10:04 · 5172 阅读 · 0 评论 -
Python Web数据抓取(xpath版)
http://www.redicecn.com/html/blog/这个版本较之前的“正则表达式版”而言,主要有以下几个改进:(1)采用SQLite缓存抓取的HTML页面,大大提高了二次数据处理的效率。第一次运行程序大约耗时6小时,以后只需3分钟左右即可完成。(2)采用xpath替换之前的正则表达式进行HTML解析。xpath定位更加简单、方便,而且能够自动修正html错误语法转载 2012-08-17 18:09:24 · 18628 阅读 · 0 评论 -
python中线程的使用
http://blog.csdn.net/lianxiang_biancheng/article/details/7803564线程启动之后,会执行一个函数,当该函数执行完之后,线程也就结束了,该函数只被执行一次。下面我以问题的形式,给出一些我的理解。想让线程不停地运行,该怎么实现?一般有2种方法:(1)在该线程执行的函数中,设置一个死循环,即while true。转载 2012-08-17 15:35:00 · 5843 阅读 · 0 评论 -
python实现网络爬虫
http://blog.csdn.net/lianxiang_biancheng/article/details/7674844一.简介 该爬虫程序包含2个类,一个管理整个crawling进程(Crawler),一个检索并解析每一个下载的web页面(Retriever)。二.程序[python] view plaincopy转载 2012-08-17 15:33:37 · 1238 阅读 · 0 评论 -
web抓取工作特点
http://www.cnblogs.com/keven1006/archive/2012/08/04/2622963.html web页面上的信息之所以难提取,关键在于诸多的不确定性,我们列举一下然后对各种提取方式进行分析看看哪种最合适(注:上篇评论中有位网友说,没有王道,只有最合适,我觉得有道理,所以我们就看看哪种最合适)。1.网页结构经常变化2.网页内容变化且非常繁杂3.转载 2012-08-17 15:27:43 · 1141 阅读 · 0 评论 -
python文件操作
文件的读写 一、文件打开:f = file(name[, mode[, buffering]])入口参数: name 文件名 mode 选项,字符串 buffering 是否缓冲 (0=不缓冲,1=缓冲, >1的int数=缓冲区大小)返回值 : 文件对象m转载 2012-08-16 22:21:20 · 961 阅读 · 0 评论 -
抓取网页的本地数据存储
网络爬虫设计——URL去重存储库设计http://hi.baidu.com/shirdrn/item/9a26421000439dfbdceecad6在爬虫启动工作的过程中,我们不希望同一个网页被多次载,因为重复下载不仅会浪费CPU机时,还会为搜索引擎系统增加负荷。而想要控制这种重复性下载问题,就要考虑下载所依据的超链接,只要能够控制待下载的URL不重复,基本可以解决同一个转载 2012-08-16 11:00:28 · 3920 阅读 · 0 评论 -
PYTHON读写xml文件的方法
http://www.2cto.com/kf/201205/133709.html要生成的xml文件格式如下:[python] sample xml thing ma转载 2012-08-15 14:46:40 · 6477 阅读 · 0 评论 -
xpath和htmlparser的配合使用
xpath只能够处理标准的xml文件,即每个开始标签必须对应一个结束标签的情况。而htmlparser只需要处理标签即可。那么问题是怎么样把一个html文件的落单的标签处理掉呢?全市java的代码,就没有一个python的示范代码么?/// /// 解析Xml文件的帮助类 /// public class XMLHelper { ///原创 2012-08-18 17:34:06 · 4504 阅读 · 0 评论 -
href of python convert HTML to XML
http://www.ibm.com/developerworks/xml/library/x-tiptidy/index.htmlhttp://www.chilkatsoft.com/python-html.asp原创 2012-08-19 20:55:50 · 520 阅读 · 0 评论 -
python分析数据的处理过程及总结
从昨天开始,老大给我们布置了一个抓取autohome的网页中车的数据的任务。这个任务作为我们学习正则表达式的实践作业,在学习之后再去以小组为单位设计抓取网页的软件的框架。昨天上午我调试通过了javascript、ajax的代码,使得网页具有通过后台检测用户名是否可用的功能。这样用掉一上午的时间后,下午开始学习正则表达式。刚开始看的时候,只是浏览了几遍包含的符号要素,初步产生这个内容包括哪些要素原创 2012-08-15 13:02:31 · 2438 阅读 · 0 评论 -
python序列化数据本地存放
深入#序列化的概念很简单。内存里面有一个数据结构,你希望将它保存下来,重用,或者发送给其他人。你会怎么做?嗯, 这取决于你想要怎么保存,怎么重用,发送给谁。很多游戏允许你在退出的时候保存进度,然后你再次启动的时候回到上次退出的地方。(实际上, 很多非游戏程序也会这么干。) 在这个情况下, 一个捕获了当前进度的数据结构需要在你退出的时候保存到磁盘上,接着在你重新启动的时候从磁盘上加载进来。这转载 2012-08-16 20:09:06 · 13013 阅读 · 0 评论 -
python文件夹和文件操作
最近在写的程序频繁地与文件操作打交道,这块比较弱,还好在百度上找到一篇不错的文章,这是原文传送门,我对原文稍做了些改动。有关文件夹与文件的查找,删除等功能 在 os 模块中实现。使用时需先导入这个模块,导入的方法是:import os一、取得当前目录s = os.getcwd()# s 中保存的是当前目录(即文件夹)比如运行abc.py,那么输入该命令就会返回abc所在转载 2012-08-29 16:59:27 · 711 阅读 · 0 评论 -
Scrapy抓取框架的介绍
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。一、概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。二、组件1、Scrapy Engine(S转载 2012-08-29 15:56:27 · 3571 阅读 · 0 评论 -
python的设计模式
Python设计模式系列之一: 用模式改善软件设计肖文鹏 (xiaowp@263.net), 北京理工大学计算机系硕士研究生简介: 软件设计大师总是要比初学者更加清楚该如何设计软件,因为他们手中掌握着设计模式这一法宝。作为一种高级的软件复用形式,设计模式是众多优秀软件设计师集体智慧的结晶,能够很好地指导软件设计过程。本系列文章介绍如何在用Python开发转载 2012-08-30 13:29:04 · 2612 阅读 · 0 评论 -
python的md5类库
MD5为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护。在Python中内置了md5,就是md5模块,可以很简单的处理字符串,Email和文件的MD5码在python中使用md5也是很简单的,首先也是要引入MD5模块,如下面的例子:>>> import md5一个字符的MD5>>> a = md5.md5("a")>>> a.hexdigest()转载 2012-08-29 16:18:33 · 6507 阅读 · 1 评论 -
一个高手的htmlparser笔记
先来大致看看HTMLParser的源代码吧:[python] view plaincopy"""A parser for HTML and XHTML.""" # This file is based on sgmllib.py, but the API is slightly different. # XXX There sho转载 2012-08-19 11:30:30 · 1067 阅读 · 0 评论 -
从HTML文件中抽取正文的简单方案
http://blog.csdn.net/lanphaday/article/details/17411852011.04.08 更新:想找此方案的代码的朋友请访问:http://code.google.com/p/creamer从HTML文件中抽取正文的简单方案作者:alexjc译者:恋花蝶(http://blog.csdn.net/lanphaday)原文地址:ht转载 2012-08-19 11:19:17 · 1421 阅读 · 0 评论 -
python下用HTMLParser分析网页方法
http://www.cnzzad.com/outtut/35897.htmlHTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用户回调函数的命名都是以h转载 2012-08-17 11:48:17 · 25696 阅读 · 0 评论