python微博爬虫编写

本文介绍了在Windows10系统上使用Python2.7和Scrapy构建微博爬虫的步骤,包括Python安装、IDE选择、Scrapy安装过程中的常见问题及其解决方案,以及初期爬虫实现,保存每个用户首页的迭代过程。
摘要由CSDN通过智能技术生成

  因为最近要做一个爬到微博中所有用户发表的微博以及所有用户的点赞、评论以及转发操作,因此学习了一下如何使用python编写微博的爬虫。为了防止后续再次用到,再加上之前在一个奇怪的地方定下了新年要写微博的新年目标,因此,特地记录了下来。
  首先声明一下环境,电脑装的windows10系统,准备使用python2.7+scrapy这两样东西拼起来搞一个微博的爬虫。

环境的配置

python的安装

  首先是python的下载和安装,考虑到网络上资料有限,个人比较怂的选择了较为古老的python2.7,而不是较新的python3。下载地址:python2.7。安装起来比较简单,一路无脑next即可。
  之后需要稍微对环境变量进行一下配置,从而方便后续使用。具体方法:
  添加了一个 PYTHON_HOME的系统变量,值是C:\Program Files (x86)\python27;C:\Program Files (x86)\python27\Scripts,再之后修改PATH这一系统变量,把刚刚的%PYTHON_HOME%这个变量加到最后。
  现在,直接在cmd里面输入python就有了如下输出:
  python安装成功效果
  至此,python27安装成功。

IDE的选择

  没有IDE我为什么要用windows。python自带的ide实在是不好用,我随便选择了一个ide使用:Wing IDE。下载和破解链接这里就不贴了,现用现查。可喜可贺的是Wing IDE居然支持vim的快捷键,然而并不支持自定义的vimrc。事实证明,即使可以也尽量不要修改默认的快捷键,不然都是泪啊。现在一般的vim用起来都难受了。

scrapy的安装

  说道爬虫,大部分人都会用到python。对于里面的道理大体就是因为可用的库比较多。相对于python自带的urllib和urllib2的库,第三方框架scrapy用起来更为的强大和方便。
  安装scrapy相对于安装python2.7要曲折的多。首先是直接安装。打开cmd,之后使用如下命令(如果你配好了环境变量的话),如果你幸运地话,就有一定可能可以直接安装成功。

pip.exe install scrapy

  成功后的结果是有一个很明显的成功信息。忘了截图了。
  然而,我并不是一个十分幸运地人。整个安装过程中,我主要遇到了三个问题,记录下来方便后续看。对不起观众的是由于错误已经被解决,所以错误消息已经残缺不全了。

权限不足

  这个最为简单,就是说权限不足不可以在c盘中的一个目录里面创建一个文件,从而导致安装失败。解决的也很简单,直接使用管理员权限运行cmd即可。

没有vs的库

  这个问题已经比较恶心了。问题如下:

Microsoft Visual C++ 9.0 is required  (Unable to find vcvarsall.bat)

  经过一番搜索发现了解决,因为python2.7所带的pip是和vs2010一个年代的东西,因此用的是vc++9.0的东西们。解决方法有两个,一个是升级pip,我怂,没敢搞。
  另一个方法就是我用的。因为我的机子上已经装了vs2014的库,所以只需要将vc++9指向实际的vc++14的位置即可。方法如下,修改系统变量,添加如下一项。
  

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值