使用Mac 进行简单的爬取

原创 2018年04月16日 13:08:19

                            我的第一只小爬虫

 

一、先确定是否安装beautifulsoup4;

如果没有,安装步骤如下

1、先装pip (终端)输入命令:sudo easy_install pip

2、安bs4 输入命令:pip install beautifulsoup4

3、输入命令:sudo easy_install beautifulsoup4(这时把bs装到了Mac系统自带了Python2.7

4、把beautifulsoup4装到Python3(输入命令:pip3 install beautifulsoup4


二、对安装的beautifulsoup4进行测试是否安装成功,在终端输入python,然后再输入from bs4 import BeautifulSoup,如果没有报错,就说明安装成功,可以进行下面的一系列操作。


三、选择一个自己想爬去的网站,用火狐浏览器打开,在即将进行爬去的的网站上进行检查,选取自己想要爬取的部分,注意选取部分相应的代码。


四、1、必须注意要用的重要引用:from bs4 import BeautifulSoupimport urllib

   以及下面的代码:

    2html = urllib.urlopen(“网址”)(抓取网站上的内容并用html存储,可以直接输入html验证是否抓取成功,html是一个类)


    3S = html.read()(把抓取的值赋给s方便后面进行筛选处理)


    4Soup = BeautifulSoup(s)(S放入beautifulsoup中,让其进行自动处理,这也是beautifulsoup的一个特色,能够对爬取的数据进行有格式的处理,使其更加美观,方便查找,可以输入soup进行验证是否成功)


    5print(soup.prettify())(调用prettify()方法,顾名思义就是对其进行美化,这也是上面一步的目的)

   

    6num = soup.select(“div”)(对数据中的进行筛选保留div块,并传给numnum是一个类)



    7Lennum)(查看numdiv的数量,不仅是可以查看div的数量,后面更小的板块比如diva等,都可以查看)


    8b = soup.select(“div[id=flashBoxu_u7_]”)(div进行筛选,选取divid“flashBoxu_u7_的那个,并用b保存,b是一个元组)


    9yy = b[0](取出b中唯一的值,并用yy保存,因为b是元组,无法对其进行筛选,所以必须把数据取出来,可以用yy进行查看,目的是查看还有多少数据,离自己想要的数据还差多少)


    10Typeyy)(对yy的数据进行判断,只要显示“<class 'bs4.element.Tag’>”说明还可以进行筛选,当然也可以选择直接提取出自己想要的数据,如果能提取出来的话)


    11P1.string(提取p1里面的汉字)


    12P3 = a(’href’)(提取a内的href,用p3保存)


    13Urllib.urlretrieve(“筛选出的href,即网址指定下载的目录”)(目录格式为:”/Users/wanghailin/Desktop/“)


Python爬取简单网页

下面以Python3.6.1打印豆瓣网首页(https://www.douban.com/)为例: ''' Created on 2017-4-16 @author: Administrator '...
  • w_t_y_y
  • w_t_y_y
  • 2017年04月16日 20:03
  • 895

Python 爬虫实现简单例子(爬取某个页面)

Python爬虫最简单实现 #!/usr/bin/env python #coding=utf-8 import  urllib import urllib2 def login():  ...
  • xuejinliang
  • xuejinliang
  • 2017年03月29日 16:59
  • 1808

Python+Scrapy爬取数据简单实例

Python爬取数据 Scrapy安装 Scrapy简介及win下安装 Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据 ...
  • weixin_36001351
  • weixin_36001351
  • 2017年08月28日 09:46
  • 835

python简单正则的爬取

这是做的第一个任务,爬取  http://www.thebigdata.cn/  中的标题和链接。  红框中为要爬取的部分:  以下为部分源代码:  1、 我一开始是在linux系统下做...
  • TT_258
  • TT_258
  • 2015年11月18日 18:43
  • 1201

scrapy框架爬取数据入库(附详细介绍)

在论坛上看过很多的scrapy数据入库(mysql)的例子,但是我尝试之后总是出现一些莫名其妙的错误,搞得自己走了很多弯路,于是我将我认为是最简单易懂的方法和代码展示给大家,欢迎大家吐槽1.创建scr...
  • CosCXY
  • CosCXY
  • 2018年03月19日 16:20
  • 100

利用python3爬取小说

此博客是在学习了大神Jack-Cui的专栏Python3网络爬虫入门之后写的,代码也是在他的一篇博客代码上稍做了下改动,在这里感谢下大神,从他那里学了很多,向大神致敬。 实现的主要功能是从笔趣看上爬...
  • wang454592297
  • wang454592297
  • 2018年01月27日 10:15
  • 203

用WebCollector爬取新浪微博数据

用WebCollector可以轻松爬取新浪微博的数据.
  • AJAXHu
  • AJAXHu
  • 2014年09月01日 17:58
  • 18018

scrapy简单爬取内容

scrapy的简单爬取不用新建项目。安装好scrapy后编写爬虫文件import scrapy class ZaobaoScrapy(scrapy.Spider): name = "zaob...
  • xiaotao745324325
  • xiaotao745324325
  • 2016年07月09日 10:23
  • 771

Python 网络爬虫--简单的爬取一些防爬取的网站

网站防采集的前提就是要正确地区分人类访问用户和网络机器人。虽然网站可以使用很多识别技术(比如验证码)来防止爬虫,但还是有一些十分简单的方法,可以让你的网络机器人看起来更像人类访问用户。 构造合理的 H...
  • M_WBCG
  • M_WBCG
  • 2017年04月20日 17:07
  • 815

python-快速使用urllib爬取网页(1)

要使用Urllib爬取网页,首先需要导入用到的对应模块 urllib是python自带的模块,不需要下载import urllib.request导入了模块后,我们采用以下方法打开并爬取一个网页fi...
  • qq_38262266
  • qq_38262266
  • 2017年12月23日 21:08
  • 235
收藏助手
不良信息举报
您举报文章:使用Mac 进行简单的爬取
举报原因:
原因补充:

(最多只允许输入30个字)