由于面试的需要,昨天看了下爬虫,python的,原先一直以为很高端,但是才发现大体思路很清晰。。。
1。连接到要抓取的某网 ,注意import urllib,比如这个样子
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
这样基本就能把这个网页搞下来了,但是不是所有网站这么搞都能搞下来,所以有的网站需要再写一个头文件的东西,(看到一句话这么说:头文件(这种工具很多浏览器是自带的),我用的是firefox的firebug插件。)还不知道啥意思,嗯 以后要看下。
2。然后,当然我不是要这个网页里的所有东西,所以要正则匹配(import re),还有可以用beautifulsoup这个玩艺(也还没开始研究。。。)
def getImg(html):
reg = r'(<td)(.*)(</td>)'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist
比如上面这个就是抓取网页中所有<td>标签下的内容,正则匹配是个要熟能生巧的东西,要慢慢练 大概解释一下 r‘() 意思是python里消除我也不知道是什么的东西,反正加了后正则表达式可以比较正常的用了,然后(.*)是代表任何东西,目前还有个小问题是:怎么就保留标签内的东东。
正则表达式要再好好看看!https://developers.google.com/edu/python/?hl=zh-CN&csw=1 一个淡疼得网址。。反正百度上也有很多博文,往后几天多找找感觉
3。再然后,就是把东东存起来了,两种:存到文件(我觉得应该很容易。。肯定明白思路);存到数据库(没接触过,要看。。。)
感觉这是篇废话~嗯 期待不久的将来研究出来点心得。。还要做毕设!ohno