爬虫项目(一):有道翻译

爬虫的自我修养:

首先,什么是爬虫?

    爬虫的实质其实就是:一个程序,用于沿着互联网节点爬行,不断访问不同的网站,以便获取它需要的资源。


入门学习爬虫,先从urllib开始学习。

urllib=url+lib ,其中URL(Universal Resource Locator)统一资源定位符,也就是我们平常见到的网址名。

常见的urllib有四个模块,分别是

urllib.request    urllib.error    urllib.parse    urllib.robotparser


开始项目的编程:

首先先访问有道在线翻译官网(http://fanyi.youdao.com),输入你待翻译的内容:(比如:帅哥)



接着点击鼠标右键-审查元素 或者 点击键盘F12键,可以得到以下页面:


在Elements Console Sources……这一栏中点击Network,可以看到没有任何东西,


此时再次点击翻译按钮,会出现如下情况:


多了一行数据,点击进入,


在右侧Headers中可以查看到一堆数据,我们需要的数据有General中的Request URL,Form Data中的所有元素。其中我们可以发现Form Data为一个字典形式,而且i其实就是我们刚才输入的待翻译内容。


网页存储为json格式,需要使用json.loads()方法



附上源码图:


注意:

    可能有的人在编写程序的时候把url=网页中Request URL时程序会返回error:50的问题,解决办法就是把Request URL链接中的?smartresult前的_o去掉,变成这个链接:

http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule ,问题就能迎刃而解了。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值