昨晚在网易云课堂上看到了这个
一、课程截图:
- anaconda里面集成了很多关于python科学计算的第三方库,主要是安装方便,而python是一个编译器,如果不使用anaconda,那么安装起来会比较痛苦,各个库之间的依赖性就很难连接的很好(百度知道)
- infolite可以方便的找到css的定位,只不过我并没有在chrome商店里找到。
- chrome监视器,network——>doc的使用:
二、我自己按照示例写第一个爬虫:
上代码:
- from bs4 import BeautifulSoup
- soup = BeautifulSoup(res.text,'html.parser')
- part = soup.select('.news-item ')
- if len(i.select('h2'))>0:
- news_h2 = i.select('h2')[0].text
- news_time = i.select('.time')[0].text
- news_a = i.select('a')[0]['href']
- print ('-----------------------------------')
- # res1.encoding = 'utf-8'
- # soup1 = BeautifulSoup(res1.text,'html.parser')
- # for i in soup1.select('.fields pr_fields'):
- # if len(i.select('a')) > 0:
- # news_number = i.select('.Article_Index').text
- # news_h = i.select('a')[0].text
- # news_href = i.select('href')[0]['href']
说明:没有注释的地方都是没有问题的,但是下面再想爬取教务处主页的时候,出了点小问题,学艺不精,也没能解决掉。
跑一下代码:不同时间运行出来的结果自然不一样
- D:\Python27\python.exe F:/网站/爬虫/test.py
- -----------------------------------
- -----------------------------------
- -----------------------------------
- -----------------------------------
- -----------------------------------
- -----------------------------------
- -----------------------------------
- -----------------------------------
- -----------------------------------
- Process finished with exit code 0
三、还有问题:
- 这个地方一改就出问题了,这个应该是python的语法问题吧?其实我还没搞懂python的语法呢。。。
- 第二个自然就是为什么爬取另外一个网站时总是报错,在之后练习爬虫的时候还是要注意这个问题。
所以总结一下一句话:第一次爬虫成功了很有成就感,但是爬虫之博大精深又不是一下子就能搞完的,BeautifulSoup4下次我们再见。
@firstmiki 2016年12月31日16:44:29