linux 下python spider获取网页title
原创所有,转载请以超链接附明本文地址及作者,谢谢 http://blog.sina.com.cn/s/blog_83dc494d0101c20q.html
------------------------------------
#!/usr/bin/python
#!coding:utf-8
import re
import urllib
urls=['http://www.baidu.com','http://www.hao123.com']
i = 0
regex=''
#pattren = re.compile(regex)
while i < len(urls):
---------------------------------------------------
说明,使用python urllib模块和re(正则)模块。获取网页html文件,使用正则匹配title标签。代码如上文以及下图所展示:
下面展示代码,有兴趣自己百度或者谷歌如何进行的,很简单的东西,太小儿科了,但是考虑可能有的同学真的需要,就写一下吧。(爬虫获取到url,title,类别。。。)
--------------------------------------
#!/usr/bin/python
#!coding:utf-8
import re
import urllib
import sys
def get_title(urls):
if __name__== '__main__':
-----------------------------
说明:因为代码比较简短,不加注释了。
使用:
zhangzhipeng@zhangzhipeng-K53SD:~/py/spider_test$ python get-title-argv.py http://www.baidu.com http://www.google.com http://www.hao123.com
http://www.baidu.com 百度一下,你就知道
http://www.google.com Google
http://www.hao123.com hao123_上网从这里开始
zhangzhipeng@zhangzhipeng-K53SD:~/py/spider_test$
china.com --->
charset
="
GB2312
">
qq.com ---> http-equiv="Content-Type" content="text/html; charset=gb2312">
zhangzhipeng2023.cn --->
property
="
qc:admins
"
content
="
156636705167201056720236 367
"/>
咳咳...我的这个渣网站都没写charset ...
抓到以后我记得GB2312的转成iso-8859-01 貌似可以正常显示,试试看- .-
----------------------
#!/usr/bin/python
#!coding:utf-8
import re
import urllib
import sys
def get_title(urls):
if len(charset[0]) == 1:
charset = charset[0][0]
elif len(charset[0]) == 2:
charset = charset[0][1]
else:
-----------------------
python 处理编码真是硬伤...
中华网明明是gb2312还是解码错误...
如果有对python encoding擅长的,希望回帖求指点。
原创所有,转载请以超链接附明本文地址及作者,谢谢 http://blog.sina.com.cn/s/blog_83dc494d0101c20q.html