python爬虫

       经过两天的摸索,终于写出了一个小小小爬虫。这其中的波折是这样的,听我娓娓道来。
我的电脑是没有配置python环境的,所以首先要上官网 下载python的环境文件


点击点头指向的按钮,下载到桌面,它是一个这样的文件“python-3.6.5.exe”,下载成功后直接点击安装
,安装成功后,那接下来就是 配置环境变量啦。


用“;”分号隔开,点击确认。

接下来就测试一下python是否安装成功,如图:




哈哈,没错这就是装成功了!

       终于终于可以写代码,激动~~~但似乎我高兴的太早了,因为我的电脑IntelliJ IDEA版本太老了,导入python插件有点问题。详情如下:

        我怀着极好的心情要给本机IDEA配置python.先上website 找到了配置python插件的步骤,
        

嘻嘻~那我也跟着尝试一下,去发现我IDEA竟然这样..

................................................................................................................尴尬...............................................................................................

虽然尴尬但是依旧要保持理智,果断卸载了这个版本的IDEA,上官网下载最新版本的IDEA。





     此处省略安装过程,直接看看能不能搜索python插件.

       

    是的,下载了最新的idea就没问题了。既然没问题了直接点击install,稍后片刻就安装成功了。

  铺垫了这么多,这回是真的可以编写代码了,让我先乐一会,嘻嘻!
  
---------------------------------------------------------------------------------------------------------------------------------

在此先展示一下代码的效果

pic1:输入您想要的的图片的关键词

    
pic2:抓取中....


pic3:成果



哈哈,作为一个伪球迷,我还是非常喜欢C罗的。

那么直接贴上代码吧。
-------------------------------------------图片爬取代码------------------------------------------------------------------------

# -*- coding:UTF-8 -*-
# Python Http客户端库,编写爬虫和测试服务器响应数据.
# 文件名:pic.py
# 作者:lifang
# 日期:2018/06/27 :15:36
import requests
import re
import random

def spiderPic(html, keyword):
    print('正在查找:' + keyword + '对应图像信息,正在百度图像库下载文件......')
    pattern_pic = '"objURL":"(.*?)",'

    for addr in re.findall(pattern_pic, html, re.S):

        print('现在正在爬去URL地址:' + str(addr)[0:50] + "...")

        try:

            pics = requests.get(addr)

            pic_url='C:/Users/lifang/Desktop/python/spider-files/img/'+ str(random.randrange(0, 1000, 4)) +'.jpg'
            fq = open(pic_url,'wb')

            fq.write(pics.content)
            fq.close()

        except Exception as e:
            print(e)
            continue


# Python主函数
if __name__ == '__main__':
    word = input('请输入您想要爬去图像的关键词:')
    #http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word=keyword
    result = requests.get('http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word)
    #print(result.text)
    spiderPic(result.text,word)


             扫码关注我,和我一起成长,做一个终身学习 者!!!!                        


 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值