使用Mac 进行简单的爬取

                            我的第一只小爬虫

 

一、先确定是否安装beautifulsoup4;

如果没有,安装步骤如下

1、先装pip (终端)输入命令:sudo easy_install pip

2、安bs4 输入命令:pip install beautifulsoup4

3、输入命令:sudo easy_install beautifulsoup4(这时把bs装到了Mac系统自带了Python2.7

4、把beautifulsoup4装到Python3(输入命令:pip3 install beautifulsoup4


二、对安装的beautifulsoup4进行测试是否安装成功,在终端输入python,然后再输入from bs4 import BeautifulSoup,如果没有报错,就说明安装成功,可以进行下面的一系列操作。


三、选择一个自己想爬去的网站,用火狐浏览器打开,在即将进行爬去的的网站上进行检查,选取自己想要爬取的部分,注意选取部分相应的代码。


四、1、必须注意要用的重要引用:from bs4 import BeautifulSoupimport urllib

   以及下面的代码:

    2html = urllib.urlopen(“网址”)(抓取网站上的内容并用html存储,可以直接输入html验证是否抓取成功,html是一个类)


    3S = html.read()(把抓取的值赋给s方便后面进行筛选处理)


    4Soup = BeautifulSoup(s)(S放入beautifulsoup中,让其进行自动处理,这也是beautifulsoup的一个特色,能够对爬取的数据进行有格式的处理,使其更加美观,方便查找,可以输入soup进行验证是否成功)


    5print(soup.prettify())(调用prettify()方法,顾名思义就是对其进行美化,这也是上面一步的目的)

   

    6num = soup.select(“div”)(对数据中的进行筛选保留div块,并传给numnum是一个类)



    7Lennum)(查看numdiv的数量,不仅是可以查看div的数量,后面更小的板块比如diva等,都可以查看)


    8b = soup.select(“div[id=flashBoxu_u7_]”)(div进行筛选,选取divid“flashBoxu_u7_的那个,并用b保存,b是一个元组)


    9yy = b[0](取出b中唯一的值,并用yy保存,因为b是元组,无法对其进行筛选,所以必须把数据取出来,可以用yy进行查看,目的是查看还有多少数据,离自己想要的数据还差多少)


    10Typeyy)(对yy的数据进行判断,只要显示“<class 'bs4.element.Tag’>”说明还可以进行筛选,当然也可以选择直接提取出自己想要的数据,如果能提取出来的话)


    11P1.string(提取p1里面的汉字)


    12P3 = a(’href’)(提取a内的href,用p3保存)


    13Urllib.urlretrieve(“筛选出的href,即网址指定下载的目录”)(目录格式为:”/Users/wanghailin/Desktop/“)


阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页