使用python写的如何自动提交和抓取网页

最新推荐文章于 2024-05-03 15:52:22 发布

weixin_34026484

最新推荐文章于 2024-05-03 15:52:22 发布

阅读量785

点赞数 1

文章标签： python

原文链接：https://yq.aliyun.com/articles/388951

版权

最近在研究怎么样做个自动发帖器，要完成这个工具难度蛮大的，验证码就是一个大问题(还没有想到解决办法哦，不管了），先要解决的是如何抓取，分析和提交页面的问题。

下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。

import urllib
import urllib2
import urlparse
import lxml.html

def url_with_query(url, values):
     parts = urlparse.urlparse(url)
     rest, (query, frag) = parts[:-2], parts[-2:]
     return urlparse.urlunparse(rest + (urllib.urlencode(values), None))

def make_open_http():
     opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
     opener.addheaders = [] # pretend we're a human -- don't do this
     def open_http(method, url, values={}):
         if method == "POST":
             return opener.open(url, urllib.urlencode(values))
         else:
             return opener.open(url_with_query(url, values))
     return open_http

open_http = make_open_http()
tree = lxml.html.fromstring(open_http("GET", "http://www.google.com").read())
form = tree.forms[0]
form.fields["q"] = "eplussoft"
form.action="http://www.google.com/search"

response = lxml.html.submit_form(form,open_http=open_http)
html = response.read()
doc = lxml.html.fromstring(html)
lxml.html.open_in_browser(doc)

恩，验证码是个大问题。还有今天看了一些百度贴吧上的东西，更是坏了心情，它的验证码是用ajax取的图片，这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了，更不要说分析验证码图片了。要解决的问题还是很多的。。。

还是小猫幸福，睡觉先。

如果，您认为阅读这篇博客让您有些收获，不妨点击一下右下角的【推荐】按钮。
 如果，您希望更容易地发现我的新博客，不妨点击一下右下角的【关注 Justrun】。
 因为，我的写作热情也离不开您的肯定支持。
感谢您的阅读，这里还有你可能感兴趣的文章推荐博客文章。

本文基于署名 2.5 中国大陆许可协议发布，欢迎转载，演绎或用于商业目的，但是必须保留本文的署名justrun（包含链接）。如您有任何疑问或者授权方面的协商，请给我留言。

本文转自JustRun博客园博客，原文链接：http://www.cnblogs.com/JustRun1983/archive/2009/06/16/1504565.html，如需转载请自行联系原作者

weixin_34026484

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用python写的如何自动提交和抓取网页

最近在研究怎么样做个自动发帖器，要完成这个工具难度蛮大的，验证码就是一个大问题(还没有想到解决办法哦，不管了），先要解决的是如何抓取，分析和提交页面的问题。下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。import urllibimport urllib2import...
复制链接

扫一扫