Python学习之路之二

距离第一天开始这课课程已经过了两三天,才陆陆续续将第二章选择了一部分实践完成。
我的耐心啊,好让人捉急……

言归正传,来写一写第二章的学习过程。
第二章主要是爬虫(Crawler)实践,有些代码由于所涉及的网站已经做了更新网址变化或者框架改变等原因不能正确运行,我就没再学习。所以只涉及了八个项目中的四个项目实践,即嗅事百科、百度贴吧、淘宝MM照片、淘宝匿名旺旺。

详细过程说明

  • 1

嗅事百科百度贴吧只涉及urllib、urllib2库,包括网址链接的获取、网页的解析,文件图片的保存等。

  • 2.

淘宝MM图片,就涉及了一些框架的问题。
第一种方案:利用 PySpider框架支持PhantomJS,所以主使用 PySpider ,
安装好框架之后,安装方法:http://cuiqingcai.com/2443.html
就可以编写代码运行了,根据 http://cuiqingcai.com/2652.html 此教程的代码运行结果会保存在本地 var/ 目录下。

第二种方法是:不使用框架,直接利用 Selenium + PhantomJS 动态解析网页,
Selenium 2,又名 WebDriver . http://cuiqingcai.com/2599.html 详细介绍了webDriver 的使用。此次测试主要是用的是 Chrome 浏览器。
遇到的问题,正常安装好Chrome之后,webdriver 调用出现错误:Chrome 不是所有用户权限。解决办法就是修改Chrome,
安装 hexedit

sudo apt-get isntall hexedit

然后使用 hexedit 二进制编辑器打开 opt/google/chrome/chrome,但是总会提示错误:read-only!, 就是修改所有权限,还是尝试失败。所以曲线救国,将该文件复制到别的路径下,修改之后又再复制回来覆盖源文件即可。
打开文件

hexedit  yourpath/chrome

Tab切换到右边, Ctrl+S搜索 geteuid,直接输入 getppid 即可修改。然后 Ctrl+X完成保存。然后复制回原路径即可

sudo cp yourpath/chrome /opt/google/chrome/chrome

再次使用webdriver 测试 Chrome ,OK

  • 3

获取淘宝匿名旺旺
前期准备:chrome + Slenium,如前面项目已经安装好这些插件
然后直接这个代码运行,感觉很炫酷,淘宝页面在不停的切换着,赶脚好像电脑被黑客攻击了一样。

ps: 其实我想说我都没有仔细看懂代码……忧桑……
2017.7.9

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值