python自动抓取_python 自动提交和抓取网页

最新推荐文章于 2023-10-27 09:30:00 发布

胡子长过汪涵

最新推荐文章于 2023-10-27 09:30:00 发布

阅读量111

点赞数

文章标签： python自动抓取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42427302/article/details/114460181

版权

下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。

import urllib

import urllib2

import urlparse

import lxml.html

def url_with_query(url, values):

parts = urlparse.urlparse(url)

rest, (query, frag) = parts[:-2], parts[-2:]

return urlparse.urlunparse(rest + (urllib.urlencode(values), None))

def make_open_http():

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())

opener.addheaders = [] # pretend we're a human -- don't do this

def open_http(method, url, values={}):

if method == "POST":

return opener.open(url, urllib.urlencode(values))

else:

return opener.open(url_with_query(url, values))

return open_http

open_http = make_open_http()

tree = lxml.html.fromstring(open_http("GET", "http://www.gimoo.net").read())

form = tree.forms[0]

form.fields["q"] = "eplussoft"

form.action="http://www.gimoo.net/search"

response = lxml.html.submit_form(form,open_http=open_http)

html = response.read()

doc = lxml.html.fromstring(html)

lxml.html.open_in_browser(doc)

恩，验证码是个大问题。还有今天看了一些百度贴吧上的东西，更是坏了心情，它的验证码是用ajax取的图片，这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了，更不要说分析验证码图片了。要解决的问题还是很多的。。。

python 域名分析工具实现代码

代码如下：importsys,urllibimportdatetime,timedefgetDate():strday=datetime.datetime.now().__str__()strday=strday.split()[0]returnstrday#url="http://www.kingnic.com/list/2009-06-16.txt"defgetUrl(da

python 生成目录树及显示文件大小的代码

比如1--12--123--1233--123交错的层级关系，刚开始感觉很乱没有想明白，后来终于抓住了关键。只要算出每个层次的深度，就好办了。我定义了一个rank，进

Python 文件重命名工具代码

#Filename:brn.py#Description:batchreplacecertainwordsinfilenames#Usetobatrenamethefileinadir(modifythesuffixfromatob)forWindowsVistaOSimportsysimportosimportfnmatchimportre#parseparamsp=input("Pleasei

胡子长过汪涵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python自动抓取_python 自动提交和抓取网页

下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。import urllibimport urllib2import urlparseimport lxml.htmldef url_with_query(url, values):parts = urlparse.urlparse(url)rest, (query, frag)...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。