爬虫
dmfrm
这个作者很懒,什么都没留下…
展开
-
Python爬虫,爬取百度百科词条
看了慕课网的一个网络爬虫教程。模仿着写了一个简单的爬取百度百科的例子。(1)安装Beautifulsoup4Beautifulsoup是Python的一个网页解析库,使用起来很方便。http://cuiqingcai.com/1319.html这个链接是介绍如何使用。这个库是需要安装的,进入Pthon安装目录下面的Scripts目录,执行pip install beautifulsoup进行安装。...原创 2017-09-03 20:03:38 · 3411 阅读 · 1 评论 -
Python爬虫下载嗅事百科出现BadStatusLine错误
在写爬取嗅事百科段子的爬虫时候,使用urllib2下载网页内容,代码抛出如下异常:后来发现是因为嗅事百科网站访问的时候,后台进行了Header校验,在调用urlopen方法之前,加上Header内容就可以了。更改后的代码如下:红框圈起来的是加上header原创 2017-09-06 00:18:17 · 1090 阅读 · 0 评论 -
Python Scrapy爬取华为应用市场APK信息
Python Scrapy是功能十分强大的爬虫框架,使用起来非常方便,下面讲解下爬取华为应用市场APK的过程。(1)安装Scrapy是第三方爬虫框架,需要先安装,我window上安装的是Python2.7,框架安装比较简单。依次执行下面的命令就可以安装成功。pip install scrapypip install pywin32如果电脑上安装的是Python3的版本,Scrapy框架安装麻烦点,...原创 2018-03-13 23:07:01 · 2986 阅读 · 1 评论 -
WebMagic爬取应用市场应用信息
WebMagic资料官方教程 http://webmagic.io/docs/zh/官方网址 http://webmagic.io/代码实现爬取华为应用市场应用信息,统计华为应用市场应用数量,启动20个线程,自定义MyPiple来保存数据。AppStoreProcessor.java主类import us.codecraft.webmagic.Page;import ...原创 2018-07-18 22:13:10 · 1169 阅读 · 0 评论