爬虫第一次

由于面试的需要,昨天看了下爬虫,python的,原先一直以为很高端,但是才发现大体思路很清晰。。。


1。连接到要抓取的某网 ,注意import urllib,比如这个样子 

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

这样基本就能把这个网页搞下来了,但是不是所有网站这么搞都能搞下来,所以有的网站需要再写一个头文件的东西,(看到一句话这么说:头文件(这种工具很多浏览器是自带的),我用的是firefox的firebug插件。)还不知道啥意思,嗯 以后要看下。


2。然后,当然我不是要这个网页里的所有东西,所以要正则匹配(import re),还有可以用beautifulsoup这个玩艺(也还没开始研究。。。)

def getImg(html):
    reg = r'(<td)(.*)(</td>)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist

比如上面这个就是抓取网页中所有<td>标签下的内容,正则匹配是个要熟能生巧的东西,要慢慢练 大概解释一下 r‘() 意思是python里消除我也不知道是什么的东西,反正加了后正则表达式可以比较正常的用了,然后(.*)是代表任何东西,目前还有个小问题是:怎么就保留标签内的东东。

正则表达式要再好好看看!https://developers.google.com/edu/python/?hl=zh-CN&csw=1 一个淡疼得网址。。反正百度上也有很多博文,往后几天多找找感觉

3。再然后,就是把东东存起来了,两种:存到文件(我觉得应该很容易。。肯定明白思路);存到数据库(没接触过,要看。。。)


感觉这是篇废话~嗯 期待不久的将来研究出来点心得。。还要做毕设!ohno

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值